Information retrieval and the Semantic Web Докладчик: Кийко Александр План доклада • Ранжирование в информационном поиске • Основные подходы к обработке семантических документов • Прототипы • Заключение 1. Схема работы поисковой машины (ПМ) Коллекция документов Индексирование ПМ ПМ Поисковый запрос Функция ранжирования Документ 1 Документ 2 Документ 3 … Документ R Ранжирование в информационном поиске (абстрактно) • Запрос: «Получение свидетельства пенсионного страхования» • Документ 1: «… Вчера получил пенсионное свидетельство на работе…» • Документ 2: «… Пенсионное страхование будет осуществляться частными компаниями…» • Документ 3: «Свидетельство пенсионного страхования… помощь в получении водительских прав…отставка Лужкова» Векторная модель Абажур … Свидетельств … Страхован … Ярмарка 0.0 0.0 0.1 … 0.5 … 0.3 … 0.1 … 0.9 … 0.6 … 0.1 … 0.0 … 0.0 … 0.1 • Мера близости – косинус угла между векторами запроса и документа • Терминам назначаются веса Принципы назначения весов терминам • Меньший вес присваивается терминам, которые встречаются во многих документах; • Больший вес присваивается терминам, которые много раз встречаются в одном документе; • Меньший вес присваивается документам, содержащим много различных терминов. Ранжирование в информационном поиске (формально) fd,t – частота встречаемости термина в документе ft – число документов в которых встречается термин 2. Технологии Semantic Web Документ Документ Документ Документ Документ Документ Документ Документ Документ Семантическая Семантическая разметка разметка Метаданные Метаданные Google ? ? Языки разметки • RDF (Resource Description Framework) • OWL (Web Ontology Language) • DAML+OIL Пример RDF файла <foaf:knows> <foaf:Person> <foaf:nick>Cal</foaf:nick> <foaf:name>Cal Henderson</foaf:name> <rdfs:seeAlso rdf:resource="http://www.iamcal.com/foaf.x ml"/> </foaf:Person> </foaf:knows> RDF - триплеты Subject Predicate Object genid:ARP40722 http://www.w3.org/1999/02/ 22-rdf-syntax-ns#type http://xmlns.com/foaf /0.1/Person genid:ARP40722 http://xmlns.com/foaf/0.1/nic "Cal" k genid:ARP40722 http://xmlns.com/foaf/0.1/na me "Cal Henderson" genid:ARP40722 http://www.w3.org/2000/01/ rdf-schema#seeAlso http://www.iamcal.co m/foaf.xml genid:me http://xmlns.com/foaf/0.1/kn ows genid:ARP40722 RDF – триплеты (2) • Каждый RDF-триплет состоит из subject, predicate, object. • Каждый RDF-триплет описывает уникальный факт Компоненты системы Метаданные в формате RDF Система обработки RDF-файлов (включая построение логического вывода) Поисковая машина ? Задачи • • • • Кодирование и декодирование RDF Индексирование Ранжирование Использование семантики Использование поисковых систем для поиска по семантическим документам (Semantic web document) Тестовые системы • OWLIR • Swangler Swangler • Осуществляет преобразование документа в формате RDF в документ с аннотациями, который может быть индексирован поисковой машиной • Предоставляет интерфейс поиска, запросы должны иметь специальный формат Область применения • Существует большое количество RDF и OWL документов, то есть большое количество семантических сетей • Стандарт HTML не позволяет добавить разметку к тексту • Поисковые машины могут на самом деле индексировать такие документы, но делать это некорректно Пример работы RDF - триплет (http://www.xfront.com/owl/ontologies/camera/#Digital http://www.w3.org/2000/01/rdf-schema#subClassOf http://www.xfront.com/owl/ontologies/camera/#PurchaseableItem) -> (7 различных комбинаций, в которых отдельные параметры заменяются на значение «любой», результат хэшируется) BE52HVKU5GD5DHRA7JYEKRBFVQ WS4KYRWMO3OR3A6TUAR7IIIDWA 2THFC7GHXLRMISEOZV4VEM7XEQ HO2H3FOPAEM53AQIZ6YVPFQ2XI 6P3WFGOWYL2DJZFTSY4NYUTI7I N656WNTZ36KQ5PX6RFUGVKQ63A IIVQRXOAYRH6GGRZDFXKEEB4PY OWLIR • Система поиска по документам, содержащим текст и семантическую разметку (RDF, DAML+OIL или OWL) • Работает с разными поисковыми машинами, тестировалась на двух: twoHAIRCUT и WONDIR • Создана для фильтрации университетских событий (спортивные матчи, открытые лекции и т.д.) Описание OWLIR: события Система построения логических выводов • Используется Java Expert System Shell Пример вывода: ->Событие: фильм “Очень страшное кино” можно сделать вывод о жанре, используя IMDB ->Жанр: “комедия” ->Будет сгенерировано несколько терминов и добавлено к документу перед индексированием Схема работы OWLIR Запрос к системе • Запрос отображается в документ, содержащий RDF – триплеты и текст <DOC> <TEXT>'UMBC Blood Drive!! Office of Student Life launches its annual Blood Drive for the Red Cross on Mon, Nov 20 in the UC Ballroom from 10am - 4pm. </TEXT> <TRIPLE>triple(charity_001)( ‘http://gentoo.cs.umbc.edu/howlir/announcements/charity#charity _001_place', ‘http://gentoo.cs.umbc.edu/ontologies/event_ont#Building', 'University Center'). </TRIPLE> </DOC> Интеграция • Логические системы дают хорошие результаты, но очень плохо масштабируются • Во время операции поиска находятся документы, содержащие термины из запроса • Логическая система применяется к небольшому набору данных для поиска подходящего решения Ранжирование • Каждый RDF-триплет отображается в 1 терм • Релевантность определяется по тем же формулам, что и в классическом поиске • Sim(q, d) – косинус угла между векторами запроса и документа, но размерность вектора равна N + M – N – количество терминов в документах – M – количество RDF-триплетов Результаты 3.Swangling • Как осуществлять преобразование семантических элементов в обычные термы (swangling)? • Когда применять логические выводы? – Применять к документу перед индексированием – Применять к запросу во время поиска • Какова должны быть глубина вывода? Использование поисковых машин • Crowlers • Ограничения – Индексируемые символы – Длина запроса Заключение • Рассмотрены подходы, с помощью которых семантические документы могут быть индексированы и запрошены из традиционных поисковых машин • Рассмотрены демонстрационные системы: OWLIR, Swangler.