8.2. WordNet: Приложения Информационный поиск: векторная модель (vector-space model) • Ранжирование документов по мере их соответствия запросу • Каждому документу ставится в соответствие вектор со значениями весов [0,1], призванными отразить значимость термина в документе • Наиболее общепринятый способ вычисления веса термина - tf • idf idf – частотность термина в коллекции tf – частотность термина в документа • Наиболее частая функция вычисления сравнения векторов документа и запроса – скалярное произведение – косинус угла между векторами Векторная модель: основные этапы • Удаление стоп-слов (и, или, но…), которые заданы списком • Приведение к нормальной морфологической форме • Построение вектора терминов документа • Сравнение вектора запроса с векторами документов • Выдаются документы, функция подобия которых превышает некоторый порог Text Retrieval Conference (TReC) • Первая конференция – 1992 • Основная цель – оценка методов информационного поиска на больших текстовых коллекциях • Основной эксперимент: ad hoc запросы – – – – – 2 Гб документов на CD-ROMe В основном публикации газет и журналов Различные по длине от 300 слов до сотен страниц Заданы темы Нужно прислать 1000 документов наиболее релевантных документов по каждой теме • Другие эксперименты: – Эксперименты по фильтрации документов – Многоязычный информационный поиск – Поиск ответов на вопросы Традиционные методы оценки эффективности поиска • Полнота (recall) – Отношение количества найденных релевантных документов к количеству всех документов, релевантных запросу Recall = RR / RA • Точность (precision) – Отношение количества найденных релевантных документов к общему количеству найденных документов Precision = RR / RS Пословные модели (bag of words): проблемы • Синонимы • Многозначность слов • Существование смысловых связей между словами • Слова запроса употреблены в тексте, но не связаны между собой. – Ищем «Охрана труда» – Получаем текст об оплате труда работников вневедомственной охраны Альтернатива: концептуальное индексирование Индекс по понятиям текста – Все синонимы, варианты эквивалентны – Возможно организовать задать отношения между понятиями, организовать расширение запроса Но: - Требуется создавать лингвистические ресурсы, тезаурусы, онтологии для разных ПО - Разрешение многозначности - Как использовать отношения для более эффективного поиска Концептуальное индексирование: эффективность на текущий момент Мнение в сообществе: – не удается показать, что затраты на разработку ресурса и разрешение многозначности окупаются увеличением эффективности поиска – статистические модели и так учитывают максимум возможного Using WordNet for Text Retrieval Ellen M. Vorhees Разрешение многозначности • Hood – область в сети WordNet, где слово однозначно – наибольший подграф, включающий S (синсет для одного из значений), и не включащий другие синсеты с S Board: значения и иерархия • Board – committee, commission…- group, grouping • (Board, control panel) – electrical device • (circuit_board, board) –( circuit, closed circuit) - electrical device • (board, plank) – (lumber, timber) – (building material) – (material, stuff) – (substance, material) • (board, mess, ration) – (food, nutrient) – (substance, material) • (dining table, board) - table – furniture – article of commence Процедура разрешения многозначности • Первый проход: просматриваются все тексты, для каждого слова добавляется 1в счетчики для синсетов и для всех вышестоящих • Проход для индивидуального текста • Для каждой вершины hood вычисляется относительная разница между числом отметки вершины в данном тексте и в массиве • Выбирается значение с максимальной разницей Коллекция • 3204 документов по компьютерным исследованиям – 50 запросов • 1460 документов информационным исследованиям – 35 запросов • 1400 документов по инженерии – 225 запросов • 1033 документов по медицине – 30 запросов • 423 документов из журнала Тайм – 83 запроса Эксперимент • Для текста и коллекции строятся вектора (текстовая единица, вес): • - стандартный по словам • - концептуальный вектор, состоящий из трех подвекторов (слова, которых не было в WordNet или не удалось разрешить многозначность), номера выбранных синсетов, многозначные слова – как контрольная группы Вектор значений: модификации 1) 110 – равные веса первому подвектору и вектору значений, подвектор многозначных сущ. не учитывается 2) 211 – 3) 101 Падение средней точности по коллекциям для 110 – от 12.3% до 42.3%, для 211 – от 6.2 до 23.2 Основная проблема при разрешении многозначности в контексте информационного поиска • В запросе происходит такой выбор значения, которого нет нигде в текстах. • Запрос: separation anxiety in infants and preschool children • 8 значений слова separation • Всего 8 релевантных документов, но находится только 1. Nail, hummer, carpenter -board • • • • Board – lumber НО: Nail – fastener – device=>board (control panel) Hummer – tool – article of commence => board (dining table) • Carpenter – worker – person =>0 Расширение запроса 1. Расширение запроса с ручным разрешением многозначности 2. Расширение запроса с автоматическим разрешением многозначности 50 Запросов из конференции TREC TREС: пример запроса Domain: Science and Technology Topic: Aftermath of Chernobyl Description: document cites measures taken by European countries to record and contain the results of the Chernobyl accident. Narrative: a document will cite an action undertaken by a European government such as testing food supplies, testing water, measuring fallout, banning new reactor construction … Concepts: 1. Chernobyl, nuclear accident, radiation, contamination 2. Consequences, evacuation, health fears, cancer 3. Banning foodstuffs, propaganda campaign, testing soil… Эксперименты с ручным разрешением многозначности • Расширение – – – – только синонимами синонимы + все нижестоящие по иерархии синонимы + все нижестоящие + «родители» Синонимы+В любую сторону на один шаг Результат расширения запроса • Полная формулировка темы (Narrative) – Никакое расширение не дало улучшения больше 2% по сравнению с пословным методом • Укороченная формулировка темы (Description) – Расширение на один шаг во все стороны дало прибавление эффективности поиска 35 процентов, но меньше чем для полной формуки Автоматическое расширение запроса • Запросы TREC: description • Слишком частотные слова в коллекции не расширяются (freq<N) • Для остальных берутся все понятиясоседи (шаг 1, 2) • Если есть пересечение синсетов от разных слов запроса, то элементы синсета добавляются к запросу Результаты автоматического расширения запроса • Оценивались различные N – 5%, 10% коллекции • Различные веса на расширение 0.3, 0.5, 0.8. • Максимальное улучшение 0.7% • Этот результат не является статистически значимым Заключение статьи • The inability to automatically resolve word senses prevented any improvements from being realized. • The experiments above suggest that the paradigmatic relations contained within WordNet together with the text to be disambiguated do not supply the the information required for this sense resolution task… Syntagmatic information is needed Вопросно-ответные системы Поиск ответов на вопросы Постановка задачи: • 60-е годы: поиск в специальных базах знаний • Сейчас: поиск в громадных текстовых массивах Примеры вопросов TREC: • What does the Peugeot company manufacture? • How long did the Charles Manson Murder trial last? • Who is the first American in space? Вопросно-ответные системы в TREC: Методы оценки • Рассылается массив (несколько Гбайт) и порядка 200 вопросов • Нужно прислать текстовые фрагменты 50 и 250 байт • Ответы упорядочены, засчитываются первые три • За правильный ответ на первом месте --- 1, на втором месте --- 0.5, на третьем --- 0.25 • Вычисление среднего по всему множеству вопросов Вопросно-ответные системы: что можно отбросить из вопроса • Кто из великих целителей прошлого написал трактат "О медицине“? • ЦЕЛЬС (Celsus) Авл Корнелий (I в. до н. э.), древнеримский автор энциклопедических трудов «Artes» (сохранился трактат "О медицине", книги 1 - 8, с ценными сведениями по гигиене, хирургии, дерматологии). • А.Е. Ферсман приводит отрывок из трактата "Сокровищница лекарств", написанного арабским целителем около тысячи лет назад: "Ношение бирюзы, …. Вопросно-ответные системы: нужно найти конкретный ответ, зависящий от вопроса • Где находится Море космонавтов? • Ответ: Главная база Советской антарктической экспедиции находится в западной части Земли Эндерби, на южном берегу залива Алашеева моря Космонавтов. • Какая организация разработала браузер MOSAIC? • Ответ: Компания Spyglass сообщила, что Sony будет использовать ее встроенный Web-браузер и другое программное обеспечение в телевизионных компьютерных приставках. Spyglass разработала браузер Mosaic - один из первых Web-браузеров, однако в последние годы она перенесла свое внимание на рынок устройств доступа к Сети. Вопросно-ответные системы: лексические замены • Как умер Сократ? • Сократ был отравлен • Почему электрические батареи быстрее разряжаются на холоде? • Батарейки быстрее садятся на морозе, потому что …. Вопросно-ответные системы: сложные случаи • Глубокий семантический анализ предложения • Кто был первым лауреатом Нобелевской премии по физике Он стал первым после Михаила Горбачева российским лауреатом Нобелевской премии с 1990 года и первым россиянином, заслужившим Нобелевку по физике, после академика Капицы, который получил ее в 1978 году. • Ответ содержится в нескольких разных текстах. – Для создания ответа необходимо уметь выполнять автоматическое аннотирование по многим документам (Multidocument summarization) – DUC The Informative Role of WordNet in Open-Domain Question Answering Marius Pasca and Sanda Harabagiu Основные этапы поиска ответа на вопрос • Обработка вопроса – определение типа ответа, формирование поискового запроса • Выполнение запроса к информационной системе, формирование упорядоченного списка документов или абзацев • Подробный анализ документов: проверка, содержат ли абзацы предполагаемый тип ответа, близость слов ответа и запроса Упорядочение ответов • Вопрос: Name the first private citizen to fly in space. • Ответ: • Among them was Christa McAuliffe, the first private citizen to fly in space. Karen Allen, best known for her starring role in “Raiders of the Lost Ark” plays McAuliffe. Brian Kerwin is featured as shuttle pilot Mike Smith. WordNet и распознавание типа вопроса • Типы вопросов – Who, How long, What Company • Типы ответов на каждый тип вопроса получены из иерархии WordNet • What flowers did Van Gogh paint? • WordNet 470 гипонимов цветов Иерархия типов вопросов и части речи • Разные части речи могут определять один тип вопроса: • Money: • How much could you rent a Volkswagen bug for in 1966? • What was the monetary value of the Nobel Prize in 1989? Классификация типов ответов • Trec8 – 200 вопросов • 11 основных типов: • Время, дата, продукция, организация, деньги, место, язык, человек • Релевантные синсеты группируются под своим типом ответа • Dimension: distance.3->wingspan, distance.1, tall Answer Type Taxonomy (example) Проведение дополнительных связей What is the political belief of president X? Возможные ответы – демократы, республиканцы, марксисты. – относятся к political leader - leader Нет связи между belief – leader Производят дополнение необходимой связью!? Таксономия ответов: текущее состояние • • • • 8707 синсетов 20 верхних типов 129 добавленных связей Правильная идентификация типа ответа для 75 процентов из 893 вопросов TREC Определение типа ответа • Основная процедура: – По словам вопроса – определение типа ответа (одного из двадцати). – Использование всех синсетов, отнесенных к данному типу для определения ответа • Динамически формируемый тип ответа: • - вопрос об известных подвидах: какой цветок, страна, кактус – What is the largest variety of cactus? – Of all the 5000 varieties of cactuses, the one that comes to mind the very word is the saguaro, Cereus giganteus, the giant of the desert. Обработка вопросов типа «что такое» • Используются шаблоны вопроса и ответа: – What <be-verb > a <PhraseToDefine>? – Who <be-verb> <HumanEntity> – Шаблоны ответов – – – – – <PhraseToDefine>, the <AnswerDefinitionPhrase> <PhraseToDefine>( a <AnswerDefinitionPhrase>) Всего 12 типов ответов Вопрос: What is anorexia nervosa? Ответ: cause of anorexia nervosa, an eating disorder Поиск абзацев: какие слова отбросить • Понятие специфичности – берется информация из WordNet • Biochemist – нельзя отбросить, а город (city) можно • Оценка специфичности – подсчет гипонимов, не считая конкретные имена и гипонимы с тем же главным словом • Если число меньше порога (10), то считается специфичным и не отбрасывается (в city – это значение 0???) Поиск абзацев: лексические и семантические замены • Лексические замены: – Who is the Queen of Holland? – Princess Margritt, sister of Queen Beatrix of the Netherlands, was also present. • Семантические замены: – What is the highest mountain in the world? – … first African country to send an expedition to Mount Everest, the world’s highest peak Заключение • Вопросно-ответная система действительно лучшая в течение нескольких лет • Произведена серьезная настройка на возможные типы вопросов • На базе WordNet создан специальный ресурс – Снижение многозначности – Добавление отношений (!?) – Информационный поиск ??? Вопросы к лекции • Какие проблемы использования онтологии в информационном поиске? • Основные этапы работы вопросноответной системы • Как можно использовать онтологию в вопросно-ответной системе?