Создание терминологического ресурса по катализу и его применение в системе текстового поиска Докладчик: Альперин Борис Львович Научный руководитель: к. х. н. с.н.с. Кузьмин Андрей Олегович, Институт Катализа им. Г.К. Борескова СО РАН Новосибирск 2012 Решаемые проблемы • Информационное обеспечение научных исследований - поиск и представление информации, стандартизация • Необходимость в информационно-справочных системах по используемой терминологии • Увеличение эффективности поиска информации в текстовых коллекциях и сети Интернет • Разработка методов извлечения и анализа знаний в области естественных наук путём анализа научных текстовых коллекций • Поиск "горячих направлений" или тенденций развития области исследования (перспективных материалов, методик, процессов и т.д.) путём анализа изменения терминологической базы во времени • Сравнительный анализ текстового материала, формирование подборок близких по содержанию документов и отслеживание смысловых связей между ними • Отслеживание динамики изменения терминологического словаря Цели работы Цель работы – создание расширенных тезаурусов (глоссариев) по катализу с разработкой терминологического веб-ресурса, их применение в системе текстового поиска Задачи: • Разработка терминологического веб-ресурса по катализу (http://www.catalysis.ru/thezaurus/) • Проектирование БД • Разработка web-приложения • Первоначальное наполнение • Создание Web-сервисов • Разработка методов использования терминологического ресурса для улучшения качества информационного поиска • Разработка поискового модуля Тезаурус – описание и подходы к формированию Статистика: Терминов: 18204 Рубрик: 3572 Связей: 10622 • Термины связаны различными типами связей (6 типов связей в наст. время) • Термины соотносятся с рубриками рубрикатора • Изначальное наполнение: • Тезаурус по гетерогенному катализу - справочные и учебные книги по катализу • Тезаурус по фотокатализу – IUPAC Glossary (Pure Appl. Chem. v.83, №4, 2011) • L-граммный анализ текстовых источников (книги по катализу) Тезаурус в информационном поиске. Создание сложного структурированного поискового запроса • Настройка на предметную область за счет использования связей между терминами поискового запроса Определение пересечения сужений Катализаторы Сужение Серебро, катализатор производства формальдегида Сужение Медь, катализатор Модифицированный запрос: (катализаторы производства формальдегида) && ((серебро, катализатор) | (медь, катализатор) ) Использование связи «full equivalent» Катализаторы производства формальдегида Full equivalent метаналь CH2O Модифицированный запрос: катализаторы производства (формальдегид | СH2O | метаналь) Структура программного комплекса (терм. ресурс, сервисы, модуль поиска) mysql БД (тезаурус, рубрикатор) Java, php api 1СБитрикс ExtJS InfoVis Модуль поиска Пользовательский интерфейс Серверная часть Вебсервисы Вебприложение Java servlets MathJax Язык запросов Яндекс Web-приложение БД (тезаурус, рубрикатор) api Модуль поиска Пользовательский интерфейс Серверная часть Веб-сервисы Веб-приложение Web-приложение Web-приложение Web-приложение Web-приложение Веб-сервисы БД (тезаурус, рубрикатор) api Модуль поиска Пользовательский интерфейс Серверная часть Веб-сервисы Веб-приложение Веб-сервисы • Веб-сервисы – часть системы, предназначенная для организации доступа к тезаурусам и рубрикаторам из других программных систем (например, модуля поиска) • Реализация – модуль «веб-сервисы» 1С-Битрикс Веб-сервис WSDL Термины • ПолучитьСписокТерминов() • ПолучитьТермин(ТерминИД) Клиент SOAP Модуль поиска БД (тезаурус, рубрикатор) api Модуль поиска Пользовательский интерфейс Серверная часть Веб-сервисы Веб-приложение Поисковый модуль - пользовательский интерфейс Поисковый модуль - пользовательский интерфейс катализаторы производства формальдегид метаналь Полученные результаты • Разработано веб-приложение для работы с тезаурусами и рубрикаторами • Разработан модуль web-сервисов • Разработаны методы использования терминологического ресурса для улучшения качества информационного поиска • Разработан поисковый модуль Созданные веб-ресурсы: • Веб - версия терминологического словаря по катализу • (http://catalysis.ru/thezaurus/application/) • Веб- сервисы для работы с тезаурусом (http://catalysis.ru/webservice/) • Подсистема текстового поиска на основе сервиса Яндекс (http://catalysis.ru/thezaurus/searchForm/) Направления дальнейшего развития • Использование методики L-граммного полнотекстового анализа: • Полуавтоматическое пополнение терминологической базы • Поиск "горячих направлений" или тенденций развития области исследования путём анализа изменения терминологической базы во времени • Сравнительный анализ текстового материала, формирование подборок близких по содержанию документов и отслеживание смысловых связей между ними путём сопоставления их L-граммных спектров • Разработка методики выявления и установления связей между терминами ПО Спасибо за внимание Схема БД Существующие решения • Существующие тезаурусы: • IUPAC Goldbook (http://goldbook.iupac.org) Представлен список только самых основных терминологической понятий. • “The Chemical Thesaurus” (http://www.chemthes.com/) Ограничен в основном списком химических соединений и химических реакций. Существующие решения Ограничения существующих тезаурусов: • Не позволяют широко охватить предметную область • Не включают в себя большинство более узких терминов и словосочетаний, синонимы и устаревшие термины. • Отсутствует информация о связях между терминами кроме связи общее-частное. • Не представлено соотнесение терминов к конкретным подразделам данной предметной области. • Нет возможности использования в других приложениях, таких как поисковые системы и т.д. Существующие решения • Существующие поисковые системы: • SciFinder (http://www.cas.org/products/scifindr/) • Reaxys (http://www.reaxys.com/) • Рассчитаны на поиск конкретных фактов в хранилищах литературных данных. • Используют предварительную экспертную разметку текстов с "привязкой" содержащейся информации к элементам собственных закрытых каталогов физикохимических свойств, химических соединений и реакций, библиографических данных. Указанные системы не могут быть применены для анализа собственных текстовых коллекций и поиска в сети Интернет.