Методы извлечения ключевых фраз Рязанцев Дмитрий 428 План доклада Зачем нужны ключевые фразы Общая схема работы Выделение кандидатов в ключевые фразы Расчет веса на основании атрибутов Отбор ключевых фраз Особенности оценки систем Системы выделения ключевых фраз Kea HUMB KP-Miner Зачем нужны ключевые фразы ? Возможность разделения документов по категориям Быстрый поиск документов по ключевым фразам Связывание разных документов между собой Общая схема работы Выделение кандидатов в ключевые фразы Расчет веса на основании атрибутов Отбор ключевых фраз Выделение кандидатов в ключевые фразы Выделение всех последовательностей длиной не более чем n слов (n-грамма) Стемминг Две группы подходов к сокращению количества кандидатов Без словаря Со словарем Без словаря Выделение n-грамм только из первых m слов документа Не учитываются слова, начинающиеся и заканчивающиеся на «стоп слова» Можно также учитывать: Частоту вхождения n-граммы в документ Место, где встречается n-грамма Со словарем Проверка на наличие в словаре всех n-грамм из текста Примеры словарей: – база технических у научных обозначений Wikipedia GRISP Общая схема выделения Выделение кандидатов в ключевые фразы Расчет веса на основании атрибутов Отбор ключевых фраз Расчет веса выделенной фразы Необходимо определить вероятность того, что фраза – ключевая Введем набор атрибутов, с помощью которых будем учитывать оценивать фразы Основные атрибуты TFxIDF frequency) - частота употребления фразы в документе IDF(inverse document frequency) TF(term Расстояние от начала документа. Длина фразы Специфические атрибуты Раздел, в котором встречается фраза Keyphraseness И другие… Методы учета атрибутов С обучением Обучение классификатора и дальнейшее его применение Без обучения Применение атрибутов формулы от значения Общая схема выделения Выделение кандидатов в ключевые фразы Расчет веса на основании атрибутов Отбор ключевых фраз Отбор ключевых фраз из взвешенного множества После просчета атрибутов получаем множество фраза-число Как отобрать нужное количество фраз ? Фиксированный порог Плавающий порог Особенности оценки систем Специфические оценки качества работы Точность (precision) – отношение количества правильно определенных фраз к общему числу выделенных фраз. Полнота (recall) – отношения количества правильно определенных фраз, к общему числу ключевых фраз. F – мера (F - measure) – среднее между полнотой и точностью. Зависимость от входных данных Научные статьи Документы общей Блоги и т.д. тематики Системы выделения ключевых фраз. Kea Нет ориентации на определенный тип статей Выделение n-грамм длины не более чем 3, за исключением: Атрибуты имен собственных начинающихся со стоп слов содержащих в себе знаки препинания TFxIDF Расстояния от начала документа Байесовский классификатор Системы выделения ключевых фраз. Kea. Результаты Системы выделения ключевых фраз. HUMB Система выделения ключевых фраз из научных и технических статей. Выделение n-грамм длины не более чем 5, за исключением: начинающихся со стоп слов содержащих в себе знаки препинания и математические символы Атрибуты Место первого вхождения фразы Phraseness Информативность (Informativeness) Мера сплоченности слов во фразе Используется TFxIDF Keywordness Как часто фраза является ключевой в документах коллекции Системы выделения ключевых фраз. HUMB Is in GRISP* Бинарный атрибут, показывающий есть ли данная фраза в GRISPe Wikipedia keyphraseness Как часто фраза является ссылкой из статьи википедии Длина фразы (в словах) Обучение классификаторов C4.5, SVN Постобработка Определение степени связанности фраз Системы выделения ключевых фраз. HUMB. Результаты Системы выделения ключевых фраз. KP-miner Выделения ключевых фраз из английских и арабских документов. Выделение n-грамм из первых m слов текста , за исключением: начинающихся со стоп слов содержащих в себе знаки препинания появляющихся менее k раз в тексте Атрибуты TFxIDF B – коэффициент уравновешивания значимости длинных фраз P – атрибут основанный на положении фразы в документе Системы выделения ключевых фраз. KP-miner W = tf*idf*B*P W – вес фразы Отбор: Фиксированный порог Пересчет TF, для выбранных фраз, являющихся подфразами других Системы выделения ключевых фраз. KP-miner. Результаты Результаты тестирования на SemEval-2010 Вопросы ?