Информационно-поисковые тезаурусы

реклама
9.1. Тезаурусы.
Основные принципы разработки, создания и
использования традиционных
информационно-поисковых тезаурусов.
Примеры тезаурусов.
Понятийная система предметной
области
• Основой любой предметной области служит система
понятий этой области.
• Определение понятия:
• Понятие – мысль, отражающая в обобщенной форме
предметы и явления действительности посредством
фиксации их свойств и отношений; последние (свойства
и отношения) выступают в понятии как общие и
специфические признаки, соотнесенные с классами
предметов и явлений (Лингвистический словарь)
Понятия и термины
• Для выражения понятия предметной
области в текстах служат слова или
словосочетания, называемые терминами.
• Совокупность терминов предметной
области образуют ее терминологическую
систему. Отношение конкретного термина
с другими терминами терминосистемы
предметной области задается посредством
дефиниции
Определения термина?
• Слово (или сочетание слов), являющееся
точным обозначением определенного
понятия какой-либо специальной области
науки, техники, искусства, общественной
жизни и т.п. || Специальное слово или
выражение, принятое для обозначения чегол. в той или иной среде, профессии
• (Большой толковый словарь русского
языка)
Термины – точные названия
понятий
• Обычно каждому понятию области соответствует хотя бы
один однозначно понимаемый термин, значением
которого является это понятие. - термины, в смысле
традиционной теории терминологии
• Свойства терминов – точных наименований понятий
- термин должен относиться непосредственно к
понятию, он должен выражать понятие ясно;
- значение термина должно быть точным и не должно
пересекаться по значению с другими терминами;
- значение термина не должно зависеть от контекста.
Термины, точно именующие понятие, - предмет
исследования теории терминологии, терминологов
Текстовые термины
• В реальных текстах предметной области для ссылки на
понятие
помимо
основных
терминов
может
использоваться множество разнообразных языковых
выражений,
которые
мы
называем
текстовыми
терминами:
• - синтактико-словообразовательные варианты: получатель
бюджетных средств – бюджетополучатель;
• - лексические варианты – безакцептное списание,
бесспорное списание;
• - многозначные выражения, в зависимости от контекста
служащие отсылкой к разным понятиям области,
например, слово валюта в разных контекстах может
означать национальная валюта или иностранная
валюта.
Соотношение понятие-термин
• Понятие
• Однозначное название = термин в
смысле Теории терминологии
• Текстовые термины
Информационно-поисковые
тезаурусы
• Информационно-поисковый Тезаурус –
контролируемый словарь терминов
предметной области, создаваемый для
улучшения качества информационного
поиска в данной предметной области
Цели разработки ИПТ
• Перевод языка авторов на контролируемый
язык, используемый для индексации и
поиска
• Обеспечение последовательности в
присваивании индексных терминов
• Обозначение отношений между терминами
• Облегчение информационного поиска
Примеры тезаурусов
• Тезаурус ООН – UNBIS Thesaurus
• Тезаурус Европейского союза – EuroVoc
• Тезаурус Исследовательской службы Конгресса США
– LIV
• СССР
– Правовой тезаурус
– ИНИОН
– Шемакин «Технический тезаурус»
• Стандарты ISO, ГОСТы
Традиционные информационно-поисковые тезаурусы
для ручного индексирования: структура
• Основные понятия ПО – дескрипторы
• Условные синонимы – аскрипторы –
• Отношения эквивалентности аскриптор –
дескриптор
• Отношения между дескрипторами
Дескрипторы
• Обозначает отдельное понятие
• Может быть однословным или
многословным
• Должны быть однозначными
• Должны быть реально использоваться в
текстах
• Для различения значений – пометы
• Для уточнений значений - комментарии
Дескрипторы с пометами
• Помета - часть названия дескриптора
• cranes (lifting equipment) vs cranes (birds)
• shells (structures) – сопоставление разных
тезаурусов
• Предпочтения словосочетаниям:
– Phonograph records vs. records (phonograph)
• Пометы и множественное число:
Wood (material)
Woods (forested areas)
Выбор названия дескриптора
• Общеизвестность и частотность
употребления
• Нейтральность: developing nations vs.
underdeveloped countries
• Другие источники: словари,
законодательство, тезаурусы
– Местный бюджет – бюджет муниципального
образования
Выбор названия дескриптора-2
•
•
•
•
•
Полная форма vs. Сокращение
Неологизмы, сленг, жаргон
Товарные знаки – vs. Аспирин, ксерокс
Общеупотребительное и научное название
Заимствованные слова
Включение дескрипторов на основе
многословных выражений
• Расщепление термина увеличивает многозначность: plant
food
• Смысл выражения зависит от порядка слов:
информационная наука - научная информация
• Одно из слов-компонент находится вне сферы тезауруса
или слишком общее: first aid
• Отношения дескриптора не следуют из его структуры:
– Искусственные почки, статус беженца, traffic lights
Иерархические отношения
• Родовидовые отношение
• Часть –целое
–
–
–
–
Органы тела
Географические объекты
Дисциплины
Иерархические структуры (полк – батальон –
рота)
• Отношение примера:
– Гималаи - горы
Ассоциативные отношения
• Сфера деятельности – действующее лицо
– Математика – математик
• Дисциплина – объект изучения
– Неврология – нервная система
• Действие – агент или инструмент
– Охота – охотник
• Действие – результат действия
– Ткачество – ткань
• Действие – цель
– Переплетные работы - книга
• Причина-следствие
– Смерть – похороны
• Величина – единица измерения
– Сила тока - ампер
• Действие - контрагент
– Аллерген – антиаллергический препарат и т.п.
Информационно-поисковые тезаурусы: этапы
разработки
• Первый этап: индексаторы описывают
основную тему текста произвольными словами
и словосочетаниями
• Полученные по многим текстам термины
сводятся вместе
• Среди близких по смыслу терминов выбирается
наиболее представительный
• Некоторые из оставшихся становятся условными
синонимами, остальные удаляются
• Конкретные термины обычно не включаются
Информационно-поисковые тезаурусы:
искусство разработки
• Дескрипторы – это термины, которые нужны для
выражения основной темы документа
• Синонимы включаются только самые
необходимые (например, начинаются с другой
буквы), чтобы не затруднять работу индексатора
• Близкие термины должны быть сведены к одному
термину, чтобы избежать субъективности
индексирования
• Уровни иерархии, включение конкретных
терминов ограничиваются
Информационно-поисковый тезаурус:
искусство разработки - 2
• В сложных случаях дескрипторы снабжаются
пометами и комментариями
– LIV: bombardment – bombing
– Многозначные термины: одно значение в тезаурусе
(capital), не помещаются в тезаурус, пометы
• !!! Традиционный информационно-поисковый
Тезаурус – искусственный язык, построенный на базе
реальных терминов
Информационно-поисковые тезаурусы:
использование отношений
• Индексатор подбирает наиболее точный
дескриптор для описания содержания
документа
• Автоматическое расширение запроса.
Проблемы с ассоциациями
Традиционные ИПТ:
применение в автоматической обработке
• Нехватка знаний о реальном языке ПО
• Legislative Indexing Vocabulary:
– в тексте TROOPS – в тезаурусе MILITARY FORCES
– в тексте CAPITAL – столица, в тезаурусе только
капитал
 Предлагается:
каждый дескриптор дополнить списками слов
и терминов
 Но:
многозначность или относящийся к разным
дескрипторам.
 Разрешение многозначности
Традиционные ИПТ:
автоматическое расширение запроса
Проблема с ассоциациями
Предлагается:
• вводить веса
• вводить названия отношений:
объект, свойство и т.п.
ВЫВОД:
• нужно научиться строить лингвистические
ресурсы специально для автоматической
обработки текстовых коллекций
Тезаурус EUROVOC – многоязычный
тезаурус Европейского Сообщества
• Тезаурус на 9 языках - 1995
• Русская версия EUROVOC
– +5 тысяч понятий, отражающих российскую
специфику
• Многоязычный тезаурус
– Дескриптор – названия на разных языках
– Аскрипторы – для некоторых языков
Тезаурус для автоматического концептуального
индексирования: отличительные особенности
Включение значительного числа конкретных понятий
(дескрипторов): не только понятие =РЫБА=, но и виды рыб;
Формирование обширных списков текстовых вариантов
понятия,
не только ОХРАНА ПРИРОДЫ, но и ЗАЩИТА ПРИРОДЫ,
ПРИРОДООХРАННАЯ СФЕРА, ПРИРОДООХРАНИТЕЛЬНЫЙ,
ПРИРОДООХРАННЫЙ;
Описание многозначных терминов;
Возрастание количества понятий
Возрастание количества отношений между понятиями;
Необходимость определения логических свойств
отношений;
Введение новых типов отношений, обладающих
различными логическими свойствами
Функции отношений в тезаурусе для
автоматического индексирования
1) Расширение запроса
2) Вывод рубрики по встретившимся в тексте
терминам
3) Разрешение многозначности
4) Установление лексической связности в тексте
для более качественного выявления понятий
основной темы текста
Общественно-политический тезаурус
• Тезаурус для автоматической обработки текстов в
общественно-политической области
• Начат в 1994 году
• Автоматизированное извлечение терминов из текста
• С 1995 года применяется в реальной автоматической
обработке текстов
• Тестируется и дополняется в процессе выполнения
конкретных работ
• Объем 29 тысяч понятий, 70 тысяч терминов, 105 тысяч
отношений между понятиями
Количественные характеристики
Общественно-политического тезауруса для автоматического
индексирования
и Тезауруса Исследовательской службы
Конгресса США (LIV)
Характеристика
Общ.-полит.
Тезаурус
LIV
Число понятий
29 тысяч
6.8 тысяч
Число терминов
70 тысяч
9.8 тысяч
Термины, описанные как
многозначные
4.5 тысяч
Нет
Общее количество описанных
отношений между понятиями
105 тысяч
15 тысяч
Количество отношений, полученных
по логическим свойствам
700 тысяч
Не
определено
Покрытие терминологией Тезауруса лексики НА РФ
(Постановление Правительства РФ от 26 июня 1995 г. N 604)
О порядке оказания безвозмездной финансовой помощи
на строительство (покупку) жилья и выплаты денежной
компенсации за наем (поднаем) жилых помещений
военнослужащим и гражданам, уволенным с военной службы
Во исполнение
Закона
Российской
Федерации
"О
статусе
военнослужащих" и в целях обеспечения прав на жилище военнослужащих
и граждан, уволенных с военной службы, Правительство Российской
Федерации п о с т а н о в л я е т :
1. Утвердить
прилагаемое
Положение
о
порядке оказания
безвозмездной финансовой помощи на строительство (покупку) жилья и
выплаты денежной компенсации за наем (поднаем) жилых помещений
военнослужащим и гражданам, уволенным с военной службы.
2. Министерству
обороны
Российской
Федерации
и
иным
федеральным органам исполнительной власти, в которых предусмотрена
военная служба:
в месячный срок разработать и утвердить формы и перечень
документов,
необходимых
для
принятия
решения
об оказании
военнослужащим безвозмездной финансовой помощи на строительство
(покупку) жилья и о выплате денежной компенсации за наем (поднаем)
жилых помещений;
расходы, связанные с оказанием военнослужащим безвозмездной
финансовой помощи и выплатой денежной компенсации за наем (поднаем)
жилых
помещений, производить за счет и в пределах средств,
выделяемых из федерального бюджета по сметам этих федеральных
органов исполнительной власти.
3. Органам
исполнительной
власти
субъектов
Российской
Федерации:
оказывать безвозмездную
финансовую
помощь
в
избранном
постоянном месте жительства гражданам, уволенным с военной службы,
осуществляющим строительство (покупку) жилья, за счет и в пределах
средств федерального бюджета, выделяемых на жилищное строительство
для этой категории граждан;
Автоматическая обработка текстов на основе
Общественно-политического Тезауруса
Концептуальное индексирование
Ранжированный информационный поиск:
Тестирование (методика TREC): значительное увеличение
полноты при сохранении точности поиска.
Интегральная оценка: средняя точность поиска по
терминам в 1.4 раза выше.
Автоматическая рубрикация текстов
- 10 различных рубрикаторов
- количество рубрик от 35 до 3000
- рубрика как сложный запрос
Автоматическое аннотирование текстов
(первое место в номинации «Индикативная аннотация
наилучшей длины» конференции по автоматическому
аннотированию SUMMAC (1998))
Тематическая аннотация
Методы,
используемые при формировании состава
Общественно-политического тезауруса
Первоначальное наполнение тезауруса
N
существительное
A+N
согласованные прилагательное
+ существительное
N+N
существительное
+ существительное в род. падеже
A+A+N
согласованные прилагательное
+ прилагательное
+ существительное
существительное
+ согласованное прилагательное
+ существительное в род.падеже
N+A+N
Правила на основе словаря сочетаемости
A(-)+N(-)=G(-)
важная проблема
A(+)+N(-)=G(+)
внешнеполитическая
деятельность
А(-)+N(+)=N(+) (G=N)
вчерашняя продажа
Словарь сочетаемости в настоящее
насчитывает около 30000 входов.
время
Алгоритм, основанный на учете структуры
связного текста (1)

Таблица №1, в которой хранятся сами элементы,
эффективная частота Freq1. В начале Таблица №1
заполняется леммами и многословными терминами,
выбираемыми из терминов тезауруса или иными
элементами, собираемыми другими алгоритмами
(например, Фамилия+Имя+Отчество)

Таблица №2 - таблица непосредственных соседей
элементов из Таблицы №1. Допустимыми являются пары
вида N+N, A+N (здесь свойство «N» - «существительного»
переносится и на словосочетание). Для каждой пары
поддерживается эффективная частота Freq2

Таблица №3 - таблица лексических связей, которые
устанавливаются между парами элементов на расстоянии,
не превышающем заданного предела k, измеряемого в
элементах (в настоящее время k=4)
Алгоритм, основанный на учете структуры
связного текста (2)

Цикл по парам элементов Таблицы №2, начиная с пары,
Argmax(Freq2). Цикл останавливается на значении
Freq2 < 3 , если ArgMax(Freq1) >= 10, и на значении
Freq2 < 2, иначе.

Для каждой пары элементов из Таблицы №2 проверяется
условие:
Freq2 (Itemi , Itemj ) > 0.5 * Freq3( Itemi , Itemj ),

Если условие не выполняется, то выбирается
следующая пара, если выполняется, то производится
сборка нового словосочетания.

При сборке производится склейка элементов Itemi и Itemj ,
образуется новый элемент Item0 , который записывается
в таблицу №1
Примеры



для нормативных актов за январь-июнь 2003 г.
«закон об обязательном страховании гражданской
ответственности владельцев транспортных
средств», «задолженность по обязательным
платежам в федеральный бюджет», уверенно
собираются полные наименования всех органов власти
РФ и т.п.
в предметной области «Авиация»: «положение
дежурство на аэродроме», «уничтожение самолета
противника», «дежурство в воздухе», «ввод в бой»,
«выход в боевое соприкосновение» и др.
в предметной области «Выборы»: «член избирательной
комиссии с правом совещательного голоса»,
«исполнительный орган местного самоуправления»,
«выборы главы местного самоуправления».
Вопросы к лекции
• В чем состоят отличительные
особенности Тезауруса для
автоматического концептуального
индексирования?
• Перечислите основные виды отношений
в ИПТ.
• Опишите идею алгоритма основанного
на учете структуры связного текста.
Скачать