ЛЕКСИКО-СИНТАКСИЧЕСКИЕ ШАБЛОНЫ ДЛЯ АВТОМАТИЧЕСКОГО АНАЛИЗА НАУЧНО-ТЕХНИЧЕСКИХ ТЕКСТОВ Е. И. Большакова, Н. Э. Васильева, С.С. Морозов МГУ им. М.В. Ломоносова Факультет ВМиК bolsh@cs.msu.su Научно-техническая проза: функции и стилевые особенности Функции оформления, сохранения и передачи научной информации: отбор лингвистических средств Средства разных уровней: лексика и фразеология; дискурс и композиция; морфология и синтаксис. Лексико-фразеологические особенности Специальная терминология научной области Общенаучные слова и словосочетания (по этой причине, суммируя вышесказанное, далее мы докажем и т.п. ) Стандартизованные конструкции - клише общенаучной речи (обозначить направления дальнейших исследований, всесторонний анализ проблемы показывает и т.п.) Системный характер; Взаимосвязь с дискурсивными особенностями Дискурсивные и композиционные особенности Научный дискурс (речь) – рассуждение, отражающее последовательность операций научного мышления (выдвижение гипотезы, введение термина, обобщение и т.п.) Дискурсивные маркеры (общенаучные слова и выражения) - помечают эти операции (предположим, что; далее кратко изложен … и др.), - упорядочивают и связывают их (во-первых, наконец; благодаря тому, что и др.), Дискурсивные операции и маркеры Исследование текстов (научные статьи, аннотации) из нескольких областей дало список операций: • • • • • • • Конкретизация и уточнение (в дополнение к); Актуализация темы (перейдем к); Выделение информации (особо подчеркнем,); Предположения и допущения (предположим, что); Иллюстрация и приведение примеров (к примеру); Обобщение и резюмирование (в общем); Сравнение и противопоставление (в отличие от); • И др. Словарные средства анализа научного текста Словарь общенаучных слов и словосочетаний: функционально-семантическая классификация разнородных единиц (классы квазисинонимов). Лексико-синтаксические шаблоны - отображают характерные конструкции научных текстов Гипотеза: распознавание дискурсивной структуры текста и примененных в нем дискурсивных операций (т.е. поверхностное понимание) – на основе частичного синтаксического анализа и лексикона общенаучных слов и выражений Лексико-синтаксические шаблоны содержат конкретные словоформы общенаучных слов свободные места (слоты), заполняемые согласованными именными группами Пример шаблона определения нового термина NGACC [«мы»] «будем называть» TINS NGACC – определяющее выражение TINS – определяемый термин Методика создания шаблонов Основная проблема – определение контекстов, сигнализирующих дискурсивный характер слов. Проведено исследование контекстов конструкций, определяющих новые термины. «По результатам генерации форм, слова были разбиты на группы, названные профилями», Но - «...устойчивого выражения, названного в заголовке…». Фразы – Лексемы – Контексты – Синтаксические конструкции – Шаблон Составные элементы шаблонов • Литералы, т.е. конкретные лексемы из словаря («определим», «будем называть» и др.) • Символьные обозначения слов определенной части речи (например, V – глагол) • Обозначения определенных грамматических конструкций (например, Ng – именная группа) • Условия, уточняющие грамматические характеристики рассмотренных элементов (например: <Ng.number=V.number> ) Основные шаги процедуры анализа текста 1) Выделение слов и словосочетаний общенаучной лексики. 2) Наложение лексико-синтаксических шаблонов, извлечение именных групп (например, определений терминов) Без полного синтаксического разбора; проверка согласования и управления слов Заключение Разрабатываемые средства нужны для: извлечения знаний из научных текстов реферирования и аннотирования текстов литературно-научного редактирования структуризации текстов для быстрого прочтения и внутритекстового поиска. Спасибо за внимание!