Exactus Expert система интеллектуального поиска и анализа научных публикаций Смирнов Иван Валентинович с.н.с. ИСА РАН 1 Назначение системы • Информационно-аналитическая поддержка научно-технической деятельности от этапа формирования тематики конкурсов до этапа оценки результативности НИР и ОКР • Поиск точек роста науки • Помощь исследователям при выполнении НИР, написании диссертаций 2 Основные решаемые с помощью системы задачи • Анализ состояния дел в заданной научной области • Оценка перспективности научных направлений • Поиск коллективов, работающих в научных направлениях, и оценка их потенциала • Прогнозирование развития научных направлений, коллективов • Все задачи решаются на основе анализа полных текстов научных публикаций 3 Научная публикация первичный научный текст • Приемлемая первичная научная публикация – первое публичное представление существенной информации об исследовании в форме, которая позволяет (1) коллегам оценить исследование, (2) воспроизвести эксперименты, (3) оценить интеллектуальный процесс, приведший к выводам • Такой текст содержит информацию о предмете, методах, целях и результатах научного исследования, проведённого в соответствии с методологическими 4 принципами объективности и системности Семантический анализ текста • Основан на понятии синтаксемы – минимальной семантико-синтаксической единицы текста • Значение синтаксемы передаёт элементарный смысл высказывания • Примеры синтаксем: – Субъект (исследование показало перспективность…) – Каузатив (гипертония приводит к поражению артерий) – Объект (сделан выбор направления исследований) – Результатив (гипертония приводит к 5 поражению артерий) Реляционноситуационный анализ научных текстов • Коммуникативная грамматика русского языка • Морфологический, синтаксический, семантический анализ текста • Установление значений синтаксем на основе словаря предикатных слов или контекстных правил • Реляционно-ситуационная модель текста, формализующая семантику текста в виде неоднородной 6 семантической сети Семантическая сеть Пример 7 Учёт семантики текстов • Сравнение семантических образов текстов • Порождение семантических конструкций - шаблонов, позволяющих извлекать информацию из текста 8 Функции системы (1) • Автоматическое наполнение коллекций научных публикаций, в том числе из открытых источников • Автоматическое извлечение метаинформации – авторов, названия, года публикации 9 Функции системы (2) • Высокоточный семантический поиск научных публикаций по запросу на естественном языке • Поиск близких публикаций к заданной публикации • Выделение ключевых слов, характеризующих содержание публикации • Резюмирование – составление краткого изложения публикации 10 Функции системы (3) • Определение качества научных публикаций, включая: – проверку соответствия структуры публикации формальным требованиям – проверка наличия разделов «постановка проблемы», «методы решения», «эксперименты» и т.д. – выявление наличия квазинаучной и лженаучной лексики 11 Метод анализа структуры • Состоит в поиске в тексте семантических конструкций (маркеров) типа <предикатное слово, синтаксема, значение>, характерных для каждого раздела • Порождение таких конструкций основано на машинном обучении по размеченным корпусам научных публикаций 12 Анализ структуры публикации • Маркеры структурного компонента «постановка проблемы» 13 Анализ структуры публикации • Маркеры структурного компонента «выводы» 14 Функции системы (4) • Выделение результатов, представленных в научных публикациях • Разделение результатов на теоретические и прикладные 15 Метод выделения результатов • Состоит в поиске в тексте семантических конструкций типа <предикатное слово, значение>, характерных для описания результатов • Порождение таких конструкций основано на машинном обучении по размеченным корпусам научных публикаций 16 Выделение результатов 17 Функции системы (5) • Выделение авторских терминов • Разработаны семантикосинтаксические шаблоны, задающие формулировки дефиниций в тексте 18 Примеры шаблонов для выделения терминов 19 Функции системы (6) • Выделение научных направлений • Выделение научных коллективов • Основаны на кластеризации публикаций по ключевым словам и авторам • Разработана алгоритм распределённой кластеризации масштабных коллекций 20 Показ системы 21