Перспективы применения семантических технологий при

реклама
Денис Голомазов
аспирант механико-математического факультета МГУ
младший научный сотрудник НИИ механики МГУ
denis.golomazov@gmail.com
4 февраля 2010 года

Что такое семантические технологии?

Зачем они нужны?

Каково текущее состояние дел?

Каковы перспективы?



Модель данных RDF
Онтологии
Логический вывод

Рассмотрим утверждения вида
«субъект – предикат – объект» (тройки)




Земля является планетой
Земля находится в солнечной системе
«Земля», «является», «планета», «находится»,
«солнечная система» - ресурсы, определяемые
уникальными адресами
Так можно описывать действительность – мы
задали модель данных



Онтология – совокупность утверждений-троек
Онтология состоит из терминологической и
фактологической частей
Терминологическая часть (словарь):
«Планета – это небесное тело»
«Звезда – это не планета»
«Планета имеет орбиту»
«Планета имеет массу (действительное число > 0)»
 «Планета может иметь спутники»





Фактологическая часть:
«Земля – это планета»
«Земля имеет массу 6x10^24 кг»
 «Луна – спутник Земли»



Мы хотим автоматически выводить новые факты из
существующих


Например: «Земля является планетой», «Планета является
небесным телом» -> «Земля является небесным телом»
Для этого вводим специальные ресурсы, имеющие
значение (правило выведения новых троек)
Например, ресурсы «класс», «являться членом класса»,
«быть подклассом».
 Значение ресурсов: если существуют тройки «C – это
подкласс D», «x – член класса C», то из этого выводится
новый факт «x – член класса D».




Единая модель данных (RDF)
Общее видение предметной области
Компьютеру доступен смысл информации

Новый уровень поиска






Более сложные запросы
Решение вопросов синонимии и мультиязычности
Конкретизация/обобщение запроса
Интеграция информации
Поддержка принятия решений
Выявление скрытого знания
9






Какова космическая стратегия Китая в
следующие 20 лет?
Как связаны стратегии Китая и США?
Как решалась задача открытия экзопланет в
прошлом?
Какие есть алгоритмы сейчас?
Какова лучшая методика в данной ситуации?
Какие новые алгоритмы были описаны в
публикациях за последний год в этой области?



Управление информацией как активом
(жизненный цикл информации)
Анализ трендов и изменений в индустрии
Накопление и использование опыта




Перевести скрытое знание из отчетов и голов
экспертов в единую систему
Возможность просмотра информации с
различным уровнем детализации
Общий доступ к информации
Взаимодействие с приложениями
11



Оптимизация принятия похожих решений
 чтобы не повторять ошибок
Оценка решений
 выбор решения с наибольшей выгодой
 с учетом рисков
Моделирование последствий решений
 разные модели
 и общее видение разных моделей
12

Готовые тройки:

Файлы .rdf (Google: 2.5 млн документов)
 созданные вручную
 сгенерированные сервисами (livejournal, facebook etc)

Структурированные данные:




Конверторы *->rdf (таблицы, реляционные БД)
Микроформаты
RDFa
Неструктурированные данные:

Конверторы HTML->RDF (“scrapers”)



Переведем в RDF существующие базы данных в
открытом доступе
Проставим ссылки из баз друг на друга
Получим большую коллекцию связанных RDFтроек
Главная проблема: у каждой базы своя онтология



Google: 186 тыс. онтологий
Онтологии общей направленности: SKOS,
Dublin Core, YAGO, DBpedia, Umbel
Специализированные онтологии, всевозможные
тематики:

люди, сообщества, наука, проекты, веб-ресурсы, теги,
бизнес, языки, география, биология, музыка, еда,…

Медицина и науки о человеке


Нефтегазовая индустрия






Активно используют онтологии
Semantic Web for Oil&Gas Workshop
Финансовые услуги
Промышленность
Социальные сети
Правительство
Медийный бизнес




Перевод информации в RDF
Автоматическое создание онтологий
Разработка согласованных словарей
Интеллектуальная собственность
18


Интернет – семантически единое
информационное пространство
Взаимодействие человека с Сетью
осуществляется посредством интеллектуальных
агентов, которые:


Отвечают на сложные вопросы
Взаимодействуют друг с другом


Система анализа научного прогресса на основе
информации из отчетов научных сотрудников
Цель: отвечать на запросы вида





Какие направления активно исследуются в данной области
знаний?
Какие публикации по данному направлению вышли за
прошедший период?
В каких еще задачах используются методы данного
направления?
Какие конференции посвящены данному направлению?
Каков научный вклад данного ученого/подразделения за
прошедший период?
Спасибо за внимание.
Денис Голомазов
denis.golomazov@gmail.com
4 февраля 2010 года
Скачать