М.М.Шарнин, И.В.Родина РосОнт. Механизмы формирования

реклама
РосОнт. Механизмы формирования
лингво-статистического портрета
предметной области мониторинга
общественного мнения для технологии
обработки «больших данных»
М.М.Шарнин, И.В.Родина
МГГУ им. М.А. Шолохова
Социальный компьютинг:основы, технологии развития,
социально-гуманитарныеэффекты
Механизмы формирования лингвостатистического портрета предметной
области мониторинга общественного
мнения для технологии обработки
«больших данных»
М.М.Шарнин, И.В.Родина
МГГУ им. М.А. Шолохова
Социальный компьютинг:основы, технологии развития,
социально-гуманитарныеэффекты
Михаил Михайлович Шарнин
к.т.н., снс Лаборатории компьютерной лингвистики
и когнитивных технологий обработки текстов
http://ipiranlogos.com/ru/Sharnin/,
доцент базовой Кафедры компьютерной
лингвистики и формальных моделей языка ИПИ РАН
mc@keywen.com.
Ирина Вениаминовна Родина
директор Центра мониторинга качества знаний и
инновационных технологий, Камский институт,
Набережные Челны, ir@keywen.com
Задачи интернет-мониторинга
общественного мнения
• Управление репутацией в социальных медиа
(cоздание позитивного имиджа, размещение материалов с позитивной
оценкой, опровержение материалов с негативной оценкой или их удаление)
• Мониторинг социальных сетей (поиск высказываний,
содержащих упоминания компаний, персон, продукции и выявление мнения
пользователей; оценка эффективности маркетинговых мероприятий; поиск
потенциальных покупателей или сотрудников)
• Продвижение в социальных сетях (поддержание
онлайн-сообщества бренда или компании и управление адресной рекламой)
Необходимые механизмы
• выделение объектов и связей между ними
(методом автоматического формирования лингво-статистического
портрета)
• определение тональности текстов
(свидетельствует об отношении населения к ключевым объектам,
персонам, организациям и событиям)
• автоматическая классификация текстов
• автоматический поиск категорий терминов
• методы коллективного интелекта
(электронное голосование, краудсорсинг)
Ключевы термины по Протестной Активности
* Активисты * Акции Протеста * Властвующая Элита *
Внутриэлитный Раскол * Госпереворот * Государственный
Переворот * Давление На Власть * Демонстрации *
Евромайдан * Захват Власти * Конфликт Элит * Кризис
Легитимной Власти * Майдан * Массовый Протест *
Митинги * Недовольство * Общественное Мнение *
Оппозиция * Пикетирование * Пикеты * Политический
Протест * Протестное Движение * Протестное Поведение *
Радикализация Протеста * Смена Власти * Собрания *
Состояние Тревожности * Уровень Организованности *
Ценностные Конфликты * Шествия * Эскалация Конфликта
Пример Дайджеста
•
•
•
•
•
•
•
•
•
•
•
Настоящий Федеральный закон направлен на обеспечение реализации установленного Конституцией Российской
Федерации права граждан Российской Федерации собираться мирно, без оружия, проводить собрания, митинги,
демонстрации, шествия и пикетирования.
Как известно, в Киеве и других городах Украины проходят акции общественных активистов и оппозиции под общим
названием Евромайдан, которые были спровоцированы решением правительства о приостановлении
евроинтеграции от 21 ноября 2013 года.
Судья Александр Негласон счел Наумлюка виновным по статье 20.2 КоАП — «Нарушение установленного порядка
организации либо проведения собрания, митинга, демонстрации, шествия или пикетирования» и приговорил к
штрафу в пять тысяч рублей.
«В наведении порядка силовыми методами и разгоне Майдана больше всех заинтересованы сами лидеры
парламентской оппозиции.
Представители парламентской оппозиции, а также менее радикально настроенные участники акций протеста, сами
заинтересованы в разгоне Майдана.
После того, как в ночь с 29 на 30 ноября 2013 бойцы спецотряда милиции "Беркут" жестоко разогнали мирную
акцию протеста на площади Независимости, гражданские акции Евромайдана переросли в политический протест.
На Украине 22 февраля произошла смена власти, имеющая признаки государственного переворота.
Формами выражения массовых протестов могут быть такие, как: митинги, демонстрации, пикетирования, кампании
гражданского неповиновения, забастовки.
Когда митинги оппозиции в декабре только начинались, на площади выходили 100-тысячные демонстрации,
требовавшие освобождения политзаключенных, Таисия Осипова надеялась, что ее отпустят.
Когда конфликт элит отсутствует или является вялотекущим, шансов у оппозиции практически нет.
.....
Часть Онтологии
• Объекты: события (акции протеста), люди
(активисты, политики), организации (партии,
оппозиция, Евромайдан), источники информации
(агентства, веб-сайты), время, место
• Акции протеста: митинги, демонстрации,
пикетирования, кампании гражданского
неповиновения, забастовки, собрания, шествия
Метод автоматического формирования
лингво-статистического портрета
предметной области (шаги 1 – 6)
1. выбор ключевых терминов, задающих предметную
область
2. поиск и накопление базы релевантных интернет-текстов
3. выделение терминов из текстов и составление частотного
словаря предметной области
4. определение списка значимых терминов предметной
области, содержащего, в частности, ключевые термины
5. разбиение текстов на сегменты или предложения
6. построение контекста каждого термина в виде набора
содержащих его сегментов/предложений
Метод автоматического формирования
лингво-статистического портрета
предметной области (шаги 7 – 10)
• 7. построение контекстных векторов для значимых
терминов
• 8. расчет косинусной меры близости контекстных
векторов и выбор ассоциативных связей
• 9. выбор кандидатов в состав ключевых терминов из
числа наиболее сильных ассоциаций ключевых терминов
• 10. пополнение состава ключевых терминов наиболее
сильными кандидатами и переход к шагу 1
Semantic similarity calculation
• Distributional semantic models
• Statistical analysis of Web texts
• Special lexico-syntactic patterns (e.g., x
"is a" y | y "including" x | x "such as" y)
• Context Vector of terms/keywords
• Сosine similarity measure
Энциклопедия Keywen как механизм
коллективного интеллекта
• Интернет энциклопедия Keywen.com содержит
более 250,000 статей и существует в Интернете
более 10 лет.
• Это первая энциклопедия, в которую каждый
пользователь может внести свой вклад
методом электронного голосования за лучшие
категории, ключевые слова и фразы.
• За последние три года более 120,000
пользователей проголосовали за лучшие
определения, категории и фразы и стали
соавторами энциклопедии.
Голосование одним кликом за
лучшее определение
Инновационный метод построения
структуры категорий в Keywen
• Пользователи могут голосовать за главные
категории для каждой статьи.
Этот вклад пользователей используется для
построения оригинальной и крупнейшей
структуры категорий для энциклопедии.
• Метод запатентован и описан в книге "Keywen
Category Structure"
Голосование одним кликом за
главную категорию статьи
Результат голосования одним
кликом за главную категорию
More Complex Example:
A Fragment of Generating Polyhierarchy
for Classification of Means of Conveyance
19
Контакты
Михаил Михайлович Шарнин
к.т.н., снс Лаборатории компьютерной лингвистики и
когнитивных технологий обработки текстов
http://ipiranlogos.com/ru/Sharnin
доцент базовой Кафедры компьютерной лингвистики и
формальных моделей языка ИПИ РАН, mc@keywen.com
Ирина Вениаминовна Родина
директор Центра мониторинга качества знаний и
инновационных технологий, Камский институт, Набережные
Челны, ir@keywen.com
Спасибо за внимание !
Российская Онтология – РосОнт
Концептуальная основа информационных
систем, в которой задаются знания о мире,
предметных областях, мировозренческие
позиции, семантический словарь, в котором
представлены понятия и соответствующие им
термины - слова и словосочетания,
организованные в структуры - иерархические,
сетевые, с указанием толкований,
синонимических рядов, ассоциативных
связей для каждого понятия.
Уникальность и Инструменты
• Уникальность
• Уникальная расширяемая информационная
система
• Инструменты
• KeyCrawler - оригинальный семантический
навигатор по Интернет
Потенциальные потребители
• Информационные агентства,
госучреждения, университеты,
аналитические службы, маркетинговые
отделы, социологические центры.
Скачать