Современные проблемы анализа информации Турдаков Денис Юрьевич turdakov@ispras.ru Отдел информационных систем ИСП РАН • http://modis.ispras.ru - сайт отдела • http://modis.ispras.ru/seminar - сайт научного семинара • Хранение и поиск данных – XML СУБД Sedna (http://sedna.org) – On-line демонстрация (http://wikixmldb.org/) • Анализ текстовых данных – Texterra - технология анализа текстов – *Noon - технология управления коллекциями документов • BlogNoon - семантический поиск и навигация по блогосфере • Анализ социальных сетей Основная часть Немного об обработке информации • Неструктурированная Текст Аудио Изображения Видео • Полуструктурированная XML Таблицы Списки • Структурированная Реляционные данные Классические задачи обработки текстов • Информационный поиск (IR) • Извлечение информации (IE) • Вопросно-ответные системы (QA) • Классификация и кластеризация • Автоматическое аннотирование и реферирование • Диалоговые системы • Машинный перевод Уровни обработки текстов • Морфологический – I’m - I am – кошка-кошки, дно-? • Синтаксический – Мне один черный кофе и один сладкий булка... • Семантический – Сколько китайского шелка было экспортировано в Западную Европу в конце 18 века? • Прагматический (дискурс) – Сколько тогда было штатов в США? Многозначность • Ключевая проблема обработки текстов • Я траву косил косой, Дождик вдруг пошел косой. Бросил я тогда косить И на Стешу стал косить. Ну а Стеша,ох,краса, Как огонь её коса! Многозначность • Морфологическая –часть речи –мой (-- нос, -- руки) –look ( look at me, have a look) Алгоритмы определения частей речи (part of speech tagging) • Синтаксическая –мужу изменять нельзя –мать любит дочь –Flying planes can be dangerous Синтаксический разбор (parsing) Многозначность • Лексическая (семантическая) разрешение лексической многозначности (word sense disambiguation) –Омонимия (ключ) –полисемия (платформа) –семантическая многозначность (лиса) • Прагматическая –тот человек в толпе... –You have a green light Многозначность и перевод • Help для Windows 95 ... Мышь может неадекватно реагировать на щелчок по почкам. Но не спешите! Это могут быть физические проблемы, а не клоп Окон 95. Почистите вашу мышь. Отсоедините ее поводок от компьютера, вытащите гениталий и промойте его и ролики внутренностей спиртом. Снова зашейте мышь. Проверьте на переломы поводка. Подсоедините мышь к компьютеру. Приглядитесь к вашей прокладке (подушке) - она не должна быть источником мусора и пыли в гениталии и роликах. Поверхность прокладки не должна стеснять движения мыши. ... Сложность языка • Естественный язык: –многозначен на всех уровнях –сложное, едва уловимое использование контекста для передачи значения –включает знания и рассуждения о мире • Но обработка естественного языка может быть иногда очень простой –использование грубых признаков часто позволяют достичь очень хороших результатов Текущее состояние • Разговорные агенты используются некоторыми авиакомпаниями • Можно отдавать голосовые команды устройствам (телефон, в автомобиле...) • Многоязыковой информационный поиск Google • Перевод страниц Google • Компании занимающиеся анализом текстов позволяют анализировать мнения и предпочтения людей Проекты ИСП РАН Стек технологий Texterra-Noon *Noon '()*+$, "$"-%#" .)/01+$2)* !"#" #$"$%& } Texterra { '()*+$, 03("*-+$%4 /)--+/5%41% .)/01+$2)* База знаний • Необходима для разрешения многозначности • Википедия как источник знаний • Другие источники знаний • Автоматическое извлечение знаний Википедия Семантическая близость • Нормализованное количество общих соседей Peter the great Andrey Kolmogorov Mstislav Keldysh Sergey Sobolev Yury Osipov Moscow Institute for System Programming Markov Prize Sergey Bulgakov Akademgorodok GraphiCon Vitus Bering Rector Landau Institute for Theoretical Physics Free Economic Society Theoretical and Mathematical Physics Nikolay Sklifosovskiy Mikhail Lomonosov Catherine I of Russia Saint Petersburg State University Moscow Institute of Physics and Technology Ivan Sechenov Catherine II of Russia Vladimir Arnold • Близкие концепции чаще встречаются вместе Linked data Автоматическое извлечение знаний • Можно ли автоматически построить базу знаний на основе анализа текстов? • Модели использующие только тексты дают низкую точность • Идея: создать систему, обогащающую существующую базу знаний новыми понятиями из текстов – В процессе разработки – Есть возможность поучаствовать в этом процессе Уровень анализа документов • Texterra: устранение многозначности и выделение ключевых понятий текста • Анализ эмоциональной окраски текстов • Распознавание и классификация именованных сущностей • Извлечение информации об авторе • Анализ изображений/видео/аудио • ... '()*+$, 03("*-+$%4 /)--+/5%41% .)/01+$2)* '()*+$, "$"-%#" .)/01+$2)* !"#" #$"$%& Устранение лексической многозначности • Наиболее частое значение (MCS) • Алгоритм Леска (1986): “PINE CONE” – PINE 1. Kinds of evergreen tree with needle-sheped leaves 2. Waste away through sorrow or illness – CONE 1. Solid body which narrows to a point 2. Something of this shpe whether solid or hollow 3. Fruit of certain evergreen tree – PINE #1 ∩ CONE #3 = 2 Метод, использующий однозначный контекст D.Turdakov, P.Velikhov (SYRCoDIS 2008) Jigsaw is W3C's open-source project that started in May 1996. It is a web server platform that provides a sample HTTP 1.1 implementation and … platform (game) implementation platform computing open-source Platform ... Railway platform web server HTTP Результат работы системы Texterra Уровень управление коллекциями документов • Информационный поиск • Терминологический поиск • Фасетный поиск • Система рекомендаций • Автоматическое реферирование и аннотирование • Вопросно-ответная система • Персонализация работы пользователя • Мониторинг информационного пространства '()*+$, 03("*-+$%4 /)--+/5%41% .)/01+$2)* '()*+$, "$"-%#" .)/01+$2)* !"#" #$"$%& BlogNoon • Система семантического поиска информации и навигации по блогосфере • http://blognoon.com Фасетный интерфейс Рекомендации Другие наши работы • Анализ табличных данных • Анализ потоков данных • Анализ социальных сетей –Антон Коршунов. 25 февраля. • http://modis.ispras.ru