Петрозаводский государственный университет Проект электронной библиотеки методик и результатов исследований текстовых коллекций для системы «Источник» Каргинова Н.В., Кравцов И.В., Москин Н.Д., Варфоломеев А.Г. RCDL - 2008 Введение Существуют сетевые сообщества исследователей в области истории и лингвистики, которые основаны на общих коллекциях текстов. Следующий шаг – предоставление проведенных исследований. Традиционные публикации: • не являются машиночитаемыми, • сложно осуществлять функции поиска и сравнения. => сообществу описаний Необходим стандартный формат для записи методик и результатов исследований RCDL - 2008 Существующие технологии • Стандарты представления бизнес-правил, в виде которых могут быть записаны научные выводы, гипотезы, формулы и алгоритмы (http://www.w3.org/2005/rules/wiki/RIF_Working_Group). • Язык PMML, служащий для записи регрессионных и других предиктивных моделей анализа данных (http://www.dmg.org/pmml-v3-2.html). • Форматы группы MKM для обмена математическими результатами (http://www.mkm-ig.org/). • Язык RuleML, позволяющий записывать различные виды правил (http://www.ruleml.org/). Методику и выводы исследователей можно представить в виде правил: «Если (условие), то (вывод)» RCDL - 2008 ИС «Источник» - формулярный анализ средневековых текстов Графическое изображение XML PDF Анализ RCDL - 2008 Формулярный анализ Распоряжение Просьба Действия адресата Выполнение адресатом распоряжения RCDL - 2008 Новые функции ИС «Источник» • интерфейсы для разметки текстов, записи правил разметки, методики исследования (правил вывода) и результатов • накапливание коллекций текстов, а также библиотеки правил и выводов • поиск и сравнение методик и результатов разных исследователей • автоматическая генерация гипотез на основе данных и правил • публикация методик и результатов в машиночитаемой форме RCDL - 2008 Формализация процесса исследования 1. Разметка текста на логические фрагменты 2. Представление структуры текста № Тип блока 1 А 2 В … … Характеристика блока 20 25 … 3. Анализ текста с помощью правил вывода RCDL - 2008 Схема процесса исследования Исследователь: текст База знаний сообщества Разметка Библиотека разметок Библиотека правил Представление в виде объекта Результаты исследований Анализ результаты RCDL - 2008 Факты и правила в системе - Заданные изначально • факты, функции, compare_structure(структура 1, структура 2) = n % • шаблоны ЕСЛИ текст 1 – структура 1, текст 2 – структура 2, …. текст n – структура n, (текст 2, …, текст n) имеют тип 1 (структура 1, структура 2, …, структура n) похожи на m% m больше порогового значения ТО текст 1 имеет тип 1 - Формирующиеся по ходу работы исследователей RCDL - 2008 Пример шаблона на языке Datalog (ядро RuleML) <Implies> <head> <Atom> <Var>text 2</Var> <Rel>type of text</Rel> <Var>type 1</Var> </Atom> </head> <body> <Atom> <Var>text 1</Var> <Rel>type of text</Rel> <Var>type 1</Var> </Atom> <Atom> <Var>text 1</Var> <Rel>structure of text</Rel> <Var>structure 1</Var> </Atom> <Atom> <Var>text 2</Var> <Rel>structure of text</Rel> <Var>structure 2</Var> </Atom> <Atom> <Var>structure 1</Var> <Rel>is like</Rel> <Var>structure 2</Var> <Ind>m %</Ind> </Atom> </body> </Implies> RCDL - 2008 Бесёдные песни и их теоретико-графовые модели Рассмотрим один из мотивов бесёдной песни «Все мужовья до жон добры», записанной Ф. Студитским в 1841 году: Все мужовья до жон добры, Покупили жонам тафты; Ещё мой муж не доброй до меня, Он купил, мутил, Коровушку купил, Жены лишнюю работу снарядил. RCDL - 2008 Первый мотив песни «Все мужовья до жон добры» RCDL - 2008 Граф сюжета песни «Все мужовья до жон добры» Из книги «Народные песни Вологодской и Олонецкой губерний, собранные Ф. Студитским». – Санкт-Петербург, 1841. С. 67. RCDL - 2008 Граф сюжета песни «Уж ты Ванюша, Иван» Из книги «Описание Олонецкой губернии в историческом, статистическом и этнографическом отношениях». Сост. В. Дашков. СПб., 1842. С. 181-182. RCDL - 2008 Граф сюжета песни «Широкая борода» Из книги «Описание Олонецкой губернии в историческом, статистическом и этнографическом отношениях». Сост. В. Дашков. СПб., 1842. С. 182-183. RCDL - 2008 Граф сюжета песни «Девушка в горенке сидела» Из книги «Описание Олонецкой губернии в историческом, статистическом и этнографическом отношениях». Сост. В. Дашков. СПб., 1842. С. 179-181 RCDL - 2008 Граф сюжета песни «Тропинкою шла» Из книги Лысанова В. Д. «Досюльная свадьба, песни, игры и танцы в Заонежье Олонецкой губернии». Петрозаводск, 1916. С. 72. RCDL - 2008 Пример (1) закономерности, полученной при анализе фольклорных песен Если «в графе песни число вершин m>14 и число ребер n>17», то «эта песня с большой вероятностью исполнялась в быстром темпе». RCDL - 2008 Представление правила на языке RuleML <Implies> <head> <Atom> <Rel>имеет темп</Rel> <Var>песня</Var> <Var>быстрый</Var> <Var>с большой вероятностью</Var> </Atom> </head> <body> <And> <Atom> <Rel>больше</Rel> <Var>число вершин</Var> <Var>14</Var> </Atom> <Atom> <Rel>больше</Rel> <Var>число ребер</Var> <Var>17</Var> </Atom> </And> <body> </Implies> RCDL - 2008 Пример (2) закономерности, полученной при анализе фольклорных песен Если «в песне часто встречаются объекты групп «разные предметы» и «конструкции», а объекты группы «проявление качеств человека» встречаются редко», то «эта песня с большой вероятностью имеет семейную тему». RCDL - 2008 Представление правила на языке RuleML <Implies> <head> <Atom> <Rel>имеет тему</Rel> <Var>песня</Var> <Var>семейная</Var> <Var>с большой вероятностью</Var> </Atom> <head> <body> <And> <Atom> <rel>часто встречаются</rel> <var>песня</var> <var>вершины группы «разные предметы»</var> </Atom> <Atom> <rel>часто встречаются</rel> <var>песня</var> <var>вершины группы «конструкции»</var> </Atom> <Atom> <rel>редко встречаются</rel> <var>песня</var> <var>вершины группы «проявление качеств человека»</var> </Atom> </And> <body> </Implies> RCDL - 2008 Хранение правил и реализация вывода Необходимо обеспечить логический вывод, следовательно нужна машина логического вывода. 1. Внутренний формат хранения правил CLIPS, SWI-Prolog RuleML – для обмена с другими сообществами и системами 2. RuleML в качестве внутреннего формата хранения правил Bossam – приложения в рамках концепции Semantic Web, OO jDREW – библиотека на Java, DR-DEVICE – рассуждения в условиях неполной и противоречивой информации RCDL - 2008 RCDL - 2008 RCDL - 2008