Exactus Expert - система интеллектуального поиска и анализа научных публикаций

реклама
Exactus Expert система интеллектуального
поиска и анализа научных
публикаций
Смирнов Иван Валентинович
с.н.с. ИСА РАН
1
Назначение системы
• Информационно-аналитическая
поддержка научно-технической
деятельности от этапа
формирования тематики конкурсов
до этапа оценки результативности
НИР и ОКР
• Поиск точек роста науки
• Помощь исследователям при
выполнении НИР, написании
диссертаций
2
Основные решаемые с
помощью системы задачи
• Анализ состояния дел в заданной
научной области
• Оценка перспективности научных
направлений
• Поиск коллективов, работающих в
научных направлениях, и оценка их
потенциала
• Прогнозирование развития научных
направлений, коллективов
• Все задачи решаются на основе анализа
полных текстов научных публикаций
3
Научная публикация первичный научный
текст
• Приемлемая первичная научная
публикация – первое публичное
представление существенной
информации об исследовании в форме,
которая позволяет (1) коллегам оценить
исследование, (2) воспроизвести
эксперименты, (3) оценить
интеллектуальный процесс, приведший
к выводам
• Такой текст содержит информацию о
предмете, методах, целях и результатах
научного исследования, проведённого в
соответствии с методологическими
4
принципами объективности и
системности
Семантический анализ
текста
• Основан на понятии синтаксемы –
минимальной семантико-синтаксической
единицы текста
• Значение синтаксемы передаёт
элементарный смысл высказывания
• Примеры синтаксем:
– Субъект (исследование показало
перспективность…)
– Каузатив (гипертония приводит к поражению
артерий)
– Объект (сделан выбор направления
исследований)
– Результатив (гипертония приводит к
5
поражению артерий)
Реляционноситуационный анализ
научных текстов
• Коммуникативная грамматика
русского языка
• Морфологический, синтаксический,
семантический анализ текста
• Установление значений синтаксем на
основе словаря предикатных слов или
контекстных правил
• Реляционно-ситуационная модель
текста, формализующая семантику
текста в виде неоднородной
6
семантической сети
Семантическая сеть
Пример
7
Учёт семантики
текстов
• Сравнение семантических образов
текстов
• Порождение семантических
конструкций - шаблонов,
позволяющих извлекать
информацию из текста
8
Функции системы (1)
• Автоматическое наполнение
коллекций научных публикаций, в
том числе из открытых источников
• Автоматическое извлечение
метаинформации – авторов,
названия, года публикации
9
Функции системы (2)
• Высокоточный семантический
поиск научных публикаций по
запросу на естественном языке
• Поиск близких публикаций к
заданной публикации
• Выделение ключевых слов,
характеризующих содержание
публикации
• Резюмирование – составление
краткого изложения публикации
10
Функции системы (3)
• Определение качества научных
публикаций, включая:
– проверку соответствия структуры
публикации формальным требованиям
– проверка наличия разделов
«постановка проблемы», «методы
решения», «эксперименты» и т.д.
– выявление наличия квазинаучной и
лженаучной лексики
11
Метод анализа
структуры
• Состоит в поиске в тексте
семантических конструкций
(маркеров) типа <предикатное
слово, синтаксема, значение>,
характерных для каждого раздела
• Порождение таких конструкций
основано на машинном обучении
по размеченным корпусам научных
публикаций
12
Анализ структуры
публикации
• Маркеры структурного
компонента «постановка
проблемы»
13
Анализ структуры
публикации
• Маркеры структурного компонента
«выводы»
14
Функции системы (4)
• Выделение результатов,
представленных в научных
публикациях
• Разделение результатов на
теоретические и прикладные
15
Метод выделения
результатов
• Состоит в поиске в тексте
семантических конструкций типа
<предикатное слово, значение>,
характерных для описания
результатов
• Порождение таких конструкций
основано на машинном обучении
по размеченным корпусам научных
публикаций
16
Выделение
результатов
17
Функции системы (5)
• Выделение авторских терминов
• Разработаны семантикосинтаксические шаблоны,
задающие формулировки
дефиниций в тексте
18
Примеры шаблонов для
выделения терминов
19
Функции системы (6)
• Выделение научных направлений
• Выделение научных коллективов
• Основаны на кластеризации
публикаций по ключевым словам и
авторам
• Разработана алгоритм
распределённой кластеризации
масштабных коллекций
20
Показ системы
21
Скачать