Text Mining Основные задачи Text Mining Text Mining – это алгоритмическое выявление прежде не известных связей и корреляций в уже имеющихся текстовых данных. Важная задача технологии Text Mining связана с извлечением из текста его характерных элементов или свойств, которые могут использоваться как метаданные документа, ключевых слов, аннотаций. Другая важная задача состоит в отнесении документа к некоторым категориям из заданной схемы их систематизации. Text Mining также обеспечивает новый уровень семантического поиска документов. Возможности современных систем Text Mining могут применяться при управлении знаниями для выявления шаблонов в тексте, для автоматического «выталкивания» или размещения информации по интересующим пользователей профилям, создавать обзоры документов. Основные элементы Text Mining В соответствии с уже сформированной методологии к основным элементам Text Mining относятся: • • • • • • • • классификация (classification), кластеризация (clustering), построение семантических сетей, извлечение фактов, понятий (feature extraction), суммаризация (summarization), ответ на запросы (question answering), тематическое индексирование (thematic indexing), поиск по ключевым словам (keyword searching). Также в некоторых случаях набор дополняют средства поддержки и создание таксономии (oftaxonomies) и тезаурусов (thesauri). Классификация При классификации текстов используются статистические корреляции для построения правил размещения документов в определенные категории. Задача классификации - это классическая задачу распознавания, где по некоторой контрольной выборке система относит новый объект к той или другой категории. Особенность систем Text Mining заключается в том, что количество объектов и их атрибутов может быть очень большой, поэтому должны быть предусмотрены интеллектуальные механизмы оптимизации процесса классификации. В существующих сегодня системах классификация применяется, например, в таких задачах: группировка документов в intranet-сетях и на Web-сайтах, размещение документов в определенные папки, сортировка сообщений электронной почты, избирательное распространение новостей подписчикам. © ElVisti 4 Кластеризация Кластеризация базируется на признаках документов, которые использует лингвистические и математические методы без использования определенных категорий. Результат таксономия или визуальная карта, которая обеспечивает эффективный охват больших объемов данных. Кластеризация в Text Mining рассматривается как процесс выделения компактных подгрупп объектов с близкими свойствами. Система должна самостоятельно найти признаки и разделить объекты по подгруппам. Кластеризация, как правило, передует классификации, поскольку разрешает определить группы объектов. Различают два основных типа кластеризации - иерархическую и бинарную. Кластеризация применяется при реферировании больших документальных массивов, определение взаимосвязанных групп документов, упрощения процесса просмотра при поиске необходимой информации, нахождения уникальных документов из коллекции, выявления дубликатов или очень близких по содержанию документов. © ElVisti 5 Другие элементы Построение семантических сетей Построение семантических сетей или анализ связей, которые определяют появление дескрипторов (ключевых фраз) в документе для обеспечения навигации. Извлечение фактов Извлечение фактов, предназначенное для получения некоторых фактов из текста с целью улучшения классификации, поиска и кластеризации. Прогнозирование Состоит в том, чтобы предсказать по значениям одних признаков объекта значения остальных. Нахождение исключений Поиск объектов, которые своими характеристиками сильно выделяются из общей массы. Визуализация. Визуализация используется как средство представления контента текстовых массивов, а также для реализации навигационных механизмов. © ElVisti 6 Автоматическое реферирование Автоматическое реферирование (Automatic Text Summarization) - это составление коротких изложений материалов, аннотаций или дайджестов, т.е. извлечения наиболее важных сведений из одного или нескольких документов и генерация на их основе лаконичных и информационно-насыщенных отчетов. Существует два направления автоматического реферирования - квазиреферирование и краткое изложение содержания. Квазиреферирование основано на экстрагировании фрагментов документов выделении наиболее информативных фраз и формировании из них квазирефератов. Краткое изложение исходного материала основывается на выделении из текстов с помощью методов искусственного интеллекта и специальных информационных языков наиболее важной информации и порождении новых текстов, содержательно обобщающих первичные документы. Семантические методы формирования рефератов-изложений допускают два основных подхода: метод синтаксического разбора предложений, и методы, базирующиеся на понимании естественного языка, методах искусственного интеллекта. © ElVisti 7 Отслеживание новостного потока. Постановка задачи Пользовательские потребности: В одном месте получить все основные новости дня — получить некоторую карту новостей Узнать, что говорят разные источники об одной и той же новости, не затрачивая на это специальных усилий Проследить развитие «новости» (события) во времени Отслеживание новостного потока. Постановка задачи Новостное сообщение – опубликованное сообщение, обладающее следующими признаками: дата, время опубликования (может отличаться от даты/времени произошедшего события) и источник (название СМИ). Новостной сюжет – совокупность сведений (новостных сообщений) о некоторых сущностях и явлениях (о людях, вещах, отношениях, действиях, процессах, свойствах, и т.д.), а также о связанных сущностях и явлениях. Делается допущение, что группа схожих по содержанию и близких по времени новостных сообщений соответствует новостному сюжету. Таким образом, выделение новостных сюжетов сводится к разбиению сообщений на группы. Выпуск новостей – ранжированный по некоторому признаку список новостных сюжетов. Отслеживание новостного потока. Постановка задачи Новое направление исследования в области IR: TDT — topic detection and tracking TDT - технологии , служащие не только для нахождения похожих новостей, но и для мониторинга отдельных событий, и для получения информационной картины мира в определенное время. ??? Чем отличается новая задача от стандартных задач IR? ??? Применимы ли стандартные методы IR к новой задаче? Отслеживание новостного потока. Постановка задачи Список основных задач Сегментация статей (Story Segmentation) - задача разделения непрерывного потока на новости, связанные одним и тем же событием. Отслеживание новостной дорожки (Topic Tracking) - нахождение всех новостей, которые “похожи” на множество эталонных новостей. Определение дорожки (Topic Detection) - кластеризация всех новостей, порожденных конкретным событием. Определение первой новости в дорожке (First Story Detection) для нахождения самого первого сообщения в новом событии. Определение связей (Link Detection) - позволяет определить, порождены ли две новости одним и тем же событием. TDT. Параметры TDT. Параметры. Пример 1. Министерство финансов внесло в правительство законопроект, предусматривающий поправки в закон об ОСАГО, куда теперь введено новое положение о выплате страховщиками неустойки в случае задержки страховых выплат. Участники рынка в целом приветствуют инициативы Минфина, поскольку считают, что выплат за просрочку будет немного. За 2006 год в ФССН поступило 3099 жалоб, из них жалобы на действия (бездействия) страховых организаций по вопросам нарушений при осуществлении ОСАГО — 1679, или более 50% обращений. В 784 жалобах, связанных с ОСАГО, указывается «несоблюдение установленных сроков рассмотрения обращений и осуществления выплат». Вера Балакирева также пояснила, почему размер неустойки привязан к страховой сумме, а не к размеру выплаты: «Достаточно много случаев, когда страховщик, получив документы, вообще не пытается урегулировать страховой случай. Тогда он не рассчитывает сумму выплаты или отвечает немотивированным отказом. И привязать неустойку к выплате — невозможно». TDT. Параметры. Пример 1. Министерство финансов внесло в правительство законопроект, предусматривающий поправки в закон об ОСАГО, куда теперь введено новое положение о выплате страховщиками неустойки в случае задержки страховых выплат. Участники рынка в целом приветствуют инициативы Минфина, поскольку считают, что выплат за просрочку будет немного. За 2006 год в ФССН поступило 3099 жалоб, из них жалобы на действия (бездействия) страховых организаций по вопросам нарушений при осуществлении ОСАГО — 1679, или более 50% обращений. В 784 жалобах, связанных с ОСАГО, указывается «несоблюдение установленных сроков рассмотрения обращений и осуществления выплат». Вера Балакирева также пояснила, почему размер неустойки привязан к страховой сумме, а не к размеру выплаты: «Достаточно много случаев, когда страховщик, получив документы, вообще не пытается урегулировать страховой случай. Тогда он не рассчитывает сумму выплаты или отвечает немотивированным отказом. И привязать неустойку к выплате — невозможно». TDT. Параметры. Пример 1. Проблемы Новостные сообщения — тексты малого объема Частотность «терминов» и «нетерминов» одинаковая «Неустойчивость» частотных характеристик тематических элементов Вера Веры Вера Минфина Минфин Минфином 0,04994 0,04994 0,04994 0,049871 0,049871 0,049871 0,041617 0,041617 0,041617 0,041559 0,041559 0,041559 3 3 3 3 3 3 Учитывать «нелингвистические признаки» Учитывать максимально большое количество слов в качестве параметров Учитывать только лексемы с определенными семантическими или морфологическими свойствами TDT. Параметры. Пример 1. Проблемы Новостные сообщения — сообщения о часто случающихся событиях и о часто упоминаемых людях или организациях Много общеупотребительных слов, определяющих тему сообщения Признаки — N-граммы из слов с высокими tf.idf страховых организаций вопросам страховых компаний целом неустойки достаточно серьезном неустойки случае задержки неустойка нарушение сроков неустойки привязан страховой неустойки страховой сумме 0,01 0,13 0,05 0,06 0,13 0,34 0,39 0,21 0,21 0,17 0,17 0,17 0,17 0,17 15 15 7 7 7 7 7 0,01 0,02 0,01 0,02 0,02 0,04 0,21 1 4 1 3 2 2 15 TDT. Параметры. Пример 1. Проблемы Новостные сообщения — сообщения о часто случающихся событиях и о часто упоминаемых людях или организациях Много общеупотребительных слов, определяющих тему сообщения Признаки — N-граммы с высокими tf.idf сроки осуществление страховой страховщиков производит выплаты выплат просрочку будет выплат просрочку будет размер неустойки привязан увеличить срок осуществления страховщиками неустойки случае продлеваются сроки осуществление предлагаемые Минфином поправки 0,265877 0,224541 0,208912 0,208912 0,199698 0,175822 0,173436 0,160662 0,151372 TDT. Параметры. Пример 1. Проблемы Много многословных устойчивых словосочетаний, состоящих из общеупотребительных слов Нужен способ выделения их именно как устойчивых слвосочетаний Вначале выделить N-грамм как устойчивое словосочетание, потом уже считать веса по устойчивому словосочетанию (tстатистика, взаимная информация и т.п.) например, использовать специальные статистики для выделения устойчивых словосочетаний (MWU), использовать частеречные фильтры (shallow parsing, chunking) директора средства время требования день отказом генерального денежные дополнительное жесткие каждый немотивированным TDT. Параметры. Пример 1. Проблемы Новостные сообщения компактные Авторы сообщений стараются не повторяться — про одно и то же событие — разными словами, один и тот же объект называть по разному, т.е. Нет полных повторений, но есть семантические повторения — низкие tf.idf у участников событий ср. Министерство финансов, минфин, министерство и т.п., дворняга, собака, пес, Шарик Постулат о текcтовой связности Разные способы моделирования текстовой связности TDT. Параметры. Усовершенстования Постулат о текстовой связности Математические методы моделирования Лингвистические моделирования и «когнитивные» методы Математические «способы борьбы» Меры ассоциативной связи между словами в предложении Кандидаты в признаки — все биграмы в предложении Изменение технологии кластеризации предложениям, по абзацам и т.п.) (кластеризация по TDT. Параметры усовершенствования Постулат о текстовой связности Лингвистические и методы моделирования: «когнитивные» вектор лексических цепочек (First Story Detection using a Composite Document Representation. Nicola Stokes, Joe Carthy) учет кластеризации по типу новостного сюжета (Activity clustering) – т.е. слова, имеющие высокий tf.idf засчет того, что характеризуют события определенного типа («ураган», «террористический акт» и т.п.) отдельные веса для имен собственных (named entities) TDT. Параметры. Пример 1. Проблемы Новостные сообщения подвижные: группировки в сюжет меняются со временем условия Если вначале мы имеем новый текст, посвященный новой новости, то что будет с tf.idf нужных слов? Часть совпадет с ключевыми словами про новости об аналогичных событиях Часть, наиболее значимых, будут иметь низкий tf.idf Необходим пересчет весовых коэффициентов (как часто?) Возможно предварительное обучение на тестовом корпусе Раздельный подсчет весов для разных категорий лексических единиц (веса для именованных объектов отдельно) TDT. Параметры. Усовершенстования признакового пространства. Резюме (1) tf.idf считается на тренинговом корпусе, при поступлении нового сообщения пересчитывается, вся коллекция, включая новое сообщение заново подвергается кластеризации (greedy agglomerative clustering algorithm) каждый термин получает дополнительный вес в зависимости от его близости к лексическим единицам, детектирующим время возниконовения события документ характеризуется комбинацией 2-х векторов: стандартый tf.idf вектор + вектор лексических цепочек (First Story Detection using a Composite Document Representation. Nicola Stokes, Joe Carthy) TDT. Параметры. Усовершенстования признакового пространства. Резюме (2) учитываются традиционные параметры (позиция в тексте и т.п.) учет кластеризации по типу новостного сюжета (Activity clustering) – т.е. слова, имеющие высокий tf.idf засчет того, что характеризуют события определенного типа («ураган», «террористический акт» и т.п.) (Ronald K. Braun and Ryan Kaneshiro Exploiting topic pragmatics for New Event Detection in tdt-2003) отдельные веса для имен собственных (named entities) классификация документов по категориям, после чего удаление стоп-слов внутри каждой категории отдельно и выбор признаковой базы внутри каждой категории TDT. Меры близости устанавливается порог: выше порога – «нет» - сообщение относится к старому сюжету, ниже порога – «да» - первое сообщение в сюжете устанавливается порог: выше порога – использование сразу нескольких методов кластеризации – результирующая мера близости как некоторая функция от результатов разных методов TDT. Меры близости Векторная модель Другие меры близости: sim(Di, Dj) = Prob(w Di | w Dj). Мера Джаккарда Во-первых, мера не учитывает разницу в размере сравниваемых документов, а во-вторых, при ее вычислении не используется информация о частоте употребления термов, составляющих документы. TDT. Методы математического моделирования. Определение новостной дорожки. Методы кластеризации. Формирование кластеров: Последний поступивший на вход системы документ (документ с номером 1 при обратной нумерации) порождает первый кластер и сравнивается со всеми предыдущими. Если мера близости для какого-нибудь документа оказывается ближе заданной пороговой, то текущий документ приписывается первому кластеру. Сравнение продолжается, пока актуальных документов потока. не исчерпывается список После такой обработки документа 1, происходит обработка следующего документа, не вошедшего в первый кластер, с которым последовательно сравниваются все актуальные документы потока и т.д. TDT. Методы математического моделирования Определение новостной дорожки. Методы кластеризации. Ранжирование по весу В результате формируется некоторое неизвестное заранее количество кластеров, которые ранжируются по своим весам, задаваемым суммой нормированных метрик близости для всех элементов кластера. Отбор важных кластеров Несмотря на то, что минимальный кластер может включать всего 1 документ, на окончательное рассмотрение принимается лишь определенное количество кластеров с наибольшими весами, т.е. группы наиболее цитируемых и актуальных сообщений. Пересчет цетроидов Для выбранных кластеров заново пересчитываются центроиды – документы, в наибольшей степени отражающие тематику кластера. Таким образом, формируются сюжетные цепочки, реализующие запросы типа «о чем пишут больше всего в последнее время?» TDT. Методы математического моделирования. Определение новостной дорожки. Методы кластеризации. Построение сюжетных цепочек автоматически выявляются наиболее освещаемые в информационных потоках. Группировка сюжетам весомых сообщений значимые по темы, выделенным Все весомые сообщения группируются по принадлежности к автоматически определяемым сюжетам. Названия сюжетов В качестве названий сюжетных цепочек используются заголовки сообщений, наиболее точно отражающих их суть. Ранжирование сюжетов определяется количеством сообщений в сюжетной цепочке, что отражает общий интерес к данной теме, рейтингом источника и TDT. Методы математического моделирования. Определение новостной дорожки. Проблемы Чем больше лексических совпадений, тем ближе тексты Наиболее близкие тексты — дубликаты — кластеры, состоящие из дубликатов или очень близких текстов Сначала удалить дубликаты, а затем кластеризовать Проблема семантически идентичных текстов (1)СООБЩИТЬ, СЕГОДНЯ, КОНФЕРЕНЦИЯ, ГЛАВА, АЛЕКСЕЙ, МИЛЛЕР, ПРЕМЬЕРМИНИСТР, БЕЛОРУССИЯ, СЕРГЕЙ,З АВЕРШЕНИЕ, ПЕРЕГОВОРЫ, МОСКВА (2)РАНЕЕ, ПРЕДЛАГАТЬ, МИНСК, ПОКУПАТЬ, ГАЗ, ЦЕНА, ДОЛЛАР, ДОЛЛАР,БЫТЬ, ОПЛАТИТЬ, ДЕНЕЖНЫЙ, СРЕДСТВО, ЧАСТЬ, АКТИВ, БЕЛТРАНСГАЗ (3)АЛЕКСЕЙ, МИЛЛЕР, РАССКАЗАТЬ, ДОГОВОР, ПОСТАВКА, ТРАНЗИТ, РОССИЙСКИЙ, ГАЗ, ПОДПИСАТЬ, ПОСЛЕДНИЙ, МИНУТА, МИНУВШИЙ, ГОД, ЕСТЬ, (4) ОБЕЩАТЬ, БОЙ, КРЕМЛЕВСКИЙ, КУРАНТЫ СООБЩИТЬ, ТЕЧЕНИЕ, ЛЕТА, РАВНЫЙ, ДОЛЯ, ВЫПЛАЧИВАТЬ, ПОЛОВИНА, СТОИМОСТЬ, БЕЛТРАНСГАЗ, ОЦЕНИТЬ, ДОЛЛАР TDT. Методы математического моделирования. Определение новостной дорожки. Методы кластеризации. Проблемы Новости, посвященные одним и тем же типам событий (наводнения, заведение уголовного дела, теракт и т.п.), попадут в один и тот же кластер Классификация по типам новостей (по событиям), потом уже выделение признаков Цепочки именованных объектов Альтернативный подход: параметры кластеризации — основные координаты события Фокус новости TDT. Методы математического моделирования. Определение новостной дорожки. Фокус новости Фокус события представляет собой совокупность объектов, каким-либо образом взаимодействующих в новости, и их тематического окружения (синонимов, описаний, дополнений объектов и других параметров, характеризующих рассматриваемое событие). Фокус события может отвечать на следующие вопросы (Сценарий (фрейм) для стандартной новости): Кто? Где? Когда? Задачи TDT. «Переносимость» методов IR Базовые технологии: Параметры — информационный портрет — математические «корреляты» параметров (например, веса, оценки вероятности и т.п.) Меры близости - различия Методы разбиения объектов на классы Задачи TDT. «Переносимость» методов IR База: методы IR TF.IDF Векторная модель кластеризация классификация Задачи TDT База: методы IR Вопросы: Что считать признаками (“размерностями пространства” / параметрами интегральной характеристики)? Как оценивать вес признака (проекцию точки на соответствующую ось) Как оценивать интегральную характеристику (меру близости в пространстве) Как уменьшить количество признаков Как уменьшить шум (уменьшить число признаков, ослабить / усилить эффект корреляции признаков) Развитие задач обработки текстов Технологическая цепочка обработки текстов в современных системах: На входе: поток текстов 1) 1. «Семантические» характеристики текста в целом Сгруппировать тексты по «событию» (кластеризация) Соотнести событие с некоторой областью знаний (рубрикация) Приписать тексту резюме (реферирование - summarization ) Сопоставить тексту топики (семантические теги - топики) Развитие задач обработки текстов 1) 2. Содержательный анализ текста Выделить в тексте «главных героев» (распознавание именованных сущностей – NER – named entities recognition Выделить в тексте «главных героев» (распознавание именованных сущностей – NER – named entities recognition Сопоставить сущности некоторое онтологическое описание - пресспортрет, досье и т.п. (дополнительная задача разрешение неоднозначности - named entities disambiguation) Локализовать текст (геолокация) Определить в тексте тематические доминанты (семантические теги) Выделить главные события (Fact extraction) Развитие задач обработки текстов На входе: пользователь + текст Задачи: (а) сформировать у пользователя некоторое отношение к объектам из текста (б) поставить пользователю дополнительный контент в соответствии с его интересами (в т.ч. детектировать интересы пользователя – персонализация) Opinion mining (sentiment analysis) Локализовать текст (геолокация) Поиск в социальных сетях сообщений на соответствующую тему Social tagging Рекомендации, контекстная реклама Семантические карты подборки документов Кластеризация позволяет разделять подборку документов на статистические смысловые группы, однако зачастую аналитику нужен более тонкий инструмент для обнаружения редких, но важных связей между темами подборки. В этом случае объектом анализа является семантическая карта взаимосвязей тем документов, а не сами документы. Карта представляет собой ориентированный граф, размеры узлов и толщина линий связи на котором соответствуют относительному весу тем и связей в подборке. Связи могут быть либо типизированными (определен семантический тип связи), либо логическими (установлен факт их наличия). Направление стрелки связи показывает причинно-следственную связь между темами — на более частную тему указывает стрелка. Толщина стрелки между темами отражает ее важность. В вершинах и связях находятся гиперссылки, ведущие к связанному набору документов. Выбрав узел на карте аналитик погружается в темы, непосредственно связанные с темой узла, как бы увеличивая масштаб карты и центрируя карту на теме. При этом состав тем карты изменится, появятся темы, наиболее тесно связанные с выбранной. Этот метод анализа часто используется также для совместного анализа нескольких карт, поиска похожих ситуаций или семантических шаблонов в различных картах и другие задачи. семантической карты. Семантические карты подборки документов Intelligent Miner for Text (IBM) Визуализация кластеров в IBM Intelligent Miner for Text: © ElVisti 41 SemioMap (Semio Corp.) http://www.entrieva.com/entrieva/products/semiomap.asp?Hdr=semiomap SemioMap - это продукт компании Entrieva, созданный в 1996 г. ученымсемиотиком Клодом Фогелем (Claude Vogel). В мае 1998 г. продукт был выпущен как промышленный комплекс SemioMap 2.0 - первая система Text Mining, работающая в архитектуре клиент-сервер. © ElVisti 42 SemioMap (Semio Corp.) Система SemioMap состоит из двух основных компонент сервера SemioMap и клиента SemioMap. Работа системы протекает в три фазы: Индексирование: сервер SemioMap автоматически читает массивы неструктурированного текста, извлекает ключевые фразы (понятия) и создает из них индекс; Кластеризация понятий: сервер SemioMap выявляет связи между извлеченными фразами и строит из них, на основе совместной встречаемости, лексическую сеть ("понятийную карту"); Графическое отображение и навигация: визуализация карт связей, которая обеспечивает быструю навигацию по ключевым фразам и связям между ними, а также возможность быстрого обращения к конкретным документам. © ElVisti 43