А.А. Трифонов Проблема создания базы знаний системы

реклама
Трифонов А.А. Проблема создания базы знаний системы информационного поиска. //
Проблемы информатики в образовании, управлении, экономике и технике: Сб. статей XIII
Междунар. научно-техн. конф. – Пенза: ПДЗ, 2013. – С. 57-59.
ПРОБЛЕМА СОЗДАНИЯ БАЗЫ ЗНАНИЙ СИСТЕМЫ
ИНФОРМАЦИОННОГО ПОИСКА
А.А. Трифонов
Пензенский государственный университет,
г. Пенза, Россия,
alexander.a.trifonov@gmail.com
В докладе рассматривается актуальность применения технологий баз знаний при
разработке систем информационного поиска. Рассматриваются основные принципы создания
базы знаний. Указывается специфика и особые условия применения семантических
технологий в существующих системах информационного поиска.
The report examines the relevance of the use of knowledge bases in the development of information retrieval systems. The author considers the basic principles of building a knowledge base.
Additionally the researcher indicates the specific features and conditions for use of semantic technologies in existing information retrieval systems.
Поисковые системы, осуществляющие поиск по ключевым словам,
обеспечивают доступ к множеству индексированных документов для тысяч
пользователей. Такие явления, как полисемия (одно слово имеет несколько
значений) и синонимия слов (несколько слов с одним значением) увеличивают
число нерелевантных результатов, выдаваемых поисковой системой. В связи с
постоянно увеличивающимся числом источников информации растет
потребность в тщательном анализе содержимого документов для того, чтобы
свести возможность получения нерелевантных результатов к минимуму [1].
Семантические технологии и технологии баз знаний предоставляют
возможности для решения этой проблемы. Под базами знаний понимают
совокупность фактов и правил вывода, допускающих логический вывод и
осмысленную обработку информации. Наиболее важным свойством
информации, хранящейся в базах знаний, является достоверность конкретных и
обобщенных сведений в базе данных и релевантности информации, получаемой
с использованием правил вывода, заложенных в базу знаний.
Базовые тренды в области семантических технологий в значительной мере
связаны с концепцией Semantic Web (SW), которую в 2000 г. выдвинул Тим
Бернерс-Ли (Tim Berners-Lee) – один из основоположников WWW и нынешний
председатель консорциума W3C. С момента появления этой концепции прошло
уже более 10 лет, но пока SW-эра, в отличие от эпохи Интернета, еще только
приближается, и на этом пути существует значительное число научных,
технических, технологических и человеческих проблем, основными из которых
являются доступность семантического контента, доступность онтологий и
средств их разработки, а также эволюция онтологий, масштабируемость,
мультиязыковость, визуализация и стабильность [2].
Для реализации эффективной поисковой системы необходимо не только
прогнозировать содержимое документов, по которым ведётся поиск, но и
условия, в которых данный поиск осуществляется. Информационную
потребность пользователя системы информационного поиска можно
представить в виде моста между тем, что пользователь знает, и тем, что он
хочет узнать, между его первоначальным запросом и конкретными темами и
терминологией, доступными в коллекции документов поисковой системы.
Одним из возможных способов решения проблемы является создание базы
знаний – семантической сети отношений между словами и понятиями в
пределах системы поиска. База знаний охватывает терминологию и коллекции
документов системы информационного поиска, по которым ведётся поиск, и
потенциальных запросов пользователя, а также описывает отношения между
ними [3]. Таким образом, база знаний служит помощником пользователю
системы информационного поиска, который не в состоянии сам предельно
точно сформулировать свою информационную потребность. Использование баз
знаний и подобных семантических структур имеет потенциал, который
позволит сделать качественный скачок вперед в области информационного
поиска.
На практике, однако, базы знаний не часто встречаются в системах
информационного поиска, так как их создание требует грамотного подхода и
проведения различных экспериментов. Считается, что предметноориентированные базы знаний дороги в производстве, а их использование
может потребовать специальных технических знаний. Таким образом, базы
знаний доступны только для маленькой части коллекций документов и
учитывают интересы только опытных пользователям.
В конце 2012 года поисковая система Google запустила в России инструмент
для семантического поиска Knowledge Graph, позволяющий получить
непосредственно в поисковой выдаче информацию об объекте поиска и
связанных с ним фактах. Инструмент Knowledge Graph, получивший в России
название «Сеть знаний», позволяет поисковой системе понимать смысл
запроса. Например, при запросе «озеро Байкал» пользователь увидит не только
ссылки на ресурсы о Байкале, но и краткую справку об этом озере, связанных с
ним достопримечательностях, прогнозе погоды и прочем.
Однако, как показали исследования пользователей англоязычного сегмента
Google, инструмент Knowledge Graph выдаёт неточную или устаревшую
информацию при 20% поступающих запросов. Согласно исследованию SEOкомпании «Conductor», проводимому в 2012 году, информация, выдаваемая
Knowledge Graph, имеет 12% расходимости с информацией, опубликованной в
Википедии. Кроме этого, точно неизвестно, как часто Knowledge Graph
заменяет устаревшую информацию на более актуальную. Практика показывает,
что в среднем на это уходит от двух до пяти дней, что кажется не таким уж и
большим отрезком времени. Но, учитывая, что скорость распространения
информации в современном Интернете исчисляется секундами, получается
довольно значительное отставание Knowledge Graph в реагировании на
изменение какой-либо информации.
Библиографический список
1. Басипов А.А., Демич О.В. Семантический поиск: проблемы и технологии
// Вестник АГТУ. Серия: Управление, вычислительная техника и информатика.
– 2012. – №1. – С. 104 – 111.
2. В.Ф. Хорошевский. Семантические технологии: ожидания и тренды //
Open Semantic Technologies for Intelligent System. – 2012. – С. 143 – 159.
3. Milne David, Witten Ian H., Nichols David M. A Knowledge-Based Search
Engine Powered by Wikipedia – Conference on information and knowledge management (CIKM’07), Lisbon, Portugal, 2007. – С. 445 – 454.
Скачать