Трифонов А.А. Проблема создания базы знаний системы информационного поиска. // Проблемы информатики в образовании, управлении, экономике и технике: Сб. статей XIII Междунар. научно-техн. конф. – Пенза: ПДЗ, 2013. – С. 57-59. ПРОБЛЕМА СОЗДАНИЯ БАЗЫ ЗНАНИЙ СИСТЕМЫ ИНФОРМАЦИОННОГО ПОИСКА А.А. Трифонов Пензенский государственный университет, г. Пенза, Россия, alexander.a.trifonov@gmail.com В докладе рассматривается актуальность применения технологий баз знаний при разработке систем информационного поиска. Рассматриваются основные принципы создания базы знаний. Указывается специфика и особые условия применения семантических технологий в существующих системах информационного поиска. The report examines the relevance of the use of knowledge bases in the development of information retrieval systems. The author considers the basic principles of building a knowledge base. Additionally the researcher indicates the specific features and conditions for use of semantic technologies in existing information retrieval systems. Поисковые системы, осуществляющие поиск по ключевым словам, обеспечивают доступ к множеству индексированных документов для тысяч пользователей. Такие явления, как полисемия (одно слово имеет несколько значений) и синонимия слов (несколько слов с одним значением) увеличивают число нерелевантных результатов, выдаваемых поисковой системой. В связи с постоянно увеличивающимся числом источников информации растет потребность в тщательном анализе содержимого документов для того, чтобы свести возможность получения нерелевантных результатов к минимуму [1]. Семантические технологии и технологии баз знаний предоставляют возможности для решения этой проблемы. Под базами знаний понимают совокупность фактов и правил вывода, допускающих логический вывод и осмысленную обработку информации. Наиболее важным свойством информации, хранящейся в базах знаний, является достоверность конкретных и обобщенных сведений в базе данных и релевантности информации, получаемой с использованием правил вывода, заложенных в базу знаний. Базовые тренды в области семантических технологий в значительной мере связаны с концепцией Semantic Web (SW), которую в 2000 г. выдвинул Тим Бернерс-Ли (Tim Berners-Lee) – один из основоположников WWW и нынешний председатель консорциума W3C. С момента появления этой концепции прошло уже более 10 лет, но пока SW-эра, в отличие от эпохи Интернета, еще только приближается, и на этом пути существует значительное число научных, технических, технологических и человеческих проблем, основными из которых являются доступность семантического контента, доступность онтологий и средств их разработки, а также эволюция онтологий, масштабируемость, мультиязыковость, визуализация и стабильность [2]. Для реализации эффективной поисковой системы необходимо не только прогнозировать содержимое документов, по которым ведётся поиск, но и условия, в которых данный поиск осуществляется. Информационную потребность пользователя системы информационного поиска можно представить в виде моста между тем, что пользователь знает, и тем, что он хочет узнать, между его первоначальным запросом и конкретными темами и терминологией, доступными в коллекции документов поисковой системы. Одним из возможных способов решения проблемы является создание базы знаний – семантической сети отношений между словами и понятиями в пределах системы поиска. База знаний охватывает терминологию и коллекции документов системы информационного поиска, по которым ведётся поиск, и потенциальных запросов пользователя, а также описывает отношения между ними [3]. Таким образом, база знаний служит помощником пользователю системы информационного поиска, который не в состоянии сам предельно точно сформулировать свою информационную потребность. Использование баз знаний и подобных семантических структур имеет потенциал, который позволит сделать качественный скачок вперед в области информационного поиска. На практике, однако, базы знаний не часто встречаются в системах информационного поиска, так как их создание требует грамотного подхода и проведения различных экспериментов. Считается, что предметноориентированные базы знаний дороги в производстве, а их использование может потребовать специальных технических знаний. Таким образом, базы знаний доступны только для маленькой части коллекций документов и учитывают интересы только опытных пользователям. В конце 2012 года поисковая система Google запустила в России инструмент для семантического поиска Knowledge Graph, позволяющий получить непосредственно в поисковой выдаче информацию об объекте поиска и связанных с ним фактах. Инструмент Knowledge Graph, получивший в России название «Сеть знаний», позволяет поисковой системе понимать смысл запроса. Например, при запросе «озеро Байкал» пользователь увидит не только ссылки на ресурсы о Байкале, но и краткую справку об этом озере, связанных с ним достопримечательностях, прогнозе погоды и прочем. Однако, как показали исследования пользователей англоязычного сегмента Google, инструмент Knowledge Graph выдаёт неточную или устаревшую информацию при 20% поступающих запросов. Согласно исследованию SEOкомпании «Conductor», проводимому в 2012 году, информация, выдаваемая Knowledge Graph, имеет 12% расходимости с информацией, опубликованной в Википедии. Кроме этого, точно неизвестно, как часто Knowledge Graph заменяет устаревшую информацию на более актуальную. Практика показывает, что в среднем на это уходит от двух до пяти дней, что кажется не таким уж и большим отрезком времени. Но, учитывая, что скорость распространения информации в современном Интернете исчисляется секундами, получается довольно значительное отставание Knowledge Graph в реагировании на изменение какой-либо информации. Библиографический список 1. Басипов А.А., Демич О.В. Семантический поиск: проблемы и технологии // Вестник АГТУ. Серия: Управление, вычислительная техника и информатика. – 2012. – №1. – С. 104 – 111. 2. В.Ф. Хорошевский. Семантические технологии: ожидания и тренды // Open Semantic Technologies for Intelligent System. – 2012. – С. 143 – 159. 3. Milne David, Witten Ian H., Nichols David M. A Knowledge-Based Search Engine Powered by Wikipedia – Conference on information and knowledge management (CIKM’07), Lisbon, Portugal, 2007. – С. 445 – 454.