РосОнт. Механизмы формирования лингво-статистического портрета предметной области мониторинга общественного мнения для технологии обработки «больших данных» М.М.Шарнин, И.В.Родина МГГУ им. М.А. Шолохова Социальный компьютинг:основы, технологии развития, социально-гуманитарныеэффекты Механизмы формирования лингвостатистического портрета предметной области мониторинга общественного мнения для технологии обработки «больших данных» М.М.Шарнин, И.В.Родина МГГУ им. М.А. Шолохова Социальный компьютинг:основы, технологии развития, социально-гуманитарныеэффекты Михаил Михайлович Шарнин к.т.н., снс Лаборатории компьютерной лингвистики и когнитивных технологий обработки текстов http://ipiranlogos.com/ru/Sharnin/, доцент базовой Кафедры компьютерной лингвистики и формальных моделей языка ИПИ РАН mc@keywen.com. Ирина Вениаминовна Родина директор Центра мониторинга качества знаний и инновационных технологий, Камский институт, Набережные Челны, ir@keywen.com Задачи интернет-мониторинга общественного мнения • Управление репутацией в социальных медиа (cоздание позитивного имиджа, размещение материалов с позитивной оценкой, опровержение материалов с негативной оценкой или их удаление) • Мониторинг социальных сетей (поиск высказываний, содержащих упоминания компаний, персон, продукции и выявление мнения пользователей; оценка эффективности маркетинговых мероприятий; поиск потенциальных покупателей или сотрудников) • Продвижение в социальных сетях (поддержание онлайн-сообщества бренда или компании и управление адресной рекламой) Необходимые механизмы • выделение объектов и связей между ними (методом автоматического формирования лингво-статистического портрета) • определение тональности текстов (свидетельствует об отношении населения к ключевым объектам, персонам, организациям и событиям) • автоматическая классификация текстов • автоматический поиск категорий терминов • методы коллективного интелекта (электронное голосование, краудсорсинг) Ключевы термины по Протестной Активности * Активисты * Акции Протеста * Властвующая Элита * Внутриэлитный Раскол * Госпереворот * Государственный Переворот * Давление На Власть * Демонстрации * Евромайдан * Захват Власти * Конфликт Элит * Кризис Легитимной Власти * Майдан * Массовый Протест * Митинги * Недовольство * Общественное Мнение * Оппозиция * Пикетирование * Пикеты * Политический Протест * Протестное Движение * Протестное Поведение * Радикализация Протеста * Смена Власти * Собрания * Состояние Тревожности * Уровень Организованности * Ценностные Конфликты * Шествия * Эскалация Конфликта Пример Дайджеста • • • • • • • • • • • Настоящий Федеральный закон направлен на обеспечение реализации установленного Конституцией Российской Федерации права граждан Российской Федерации собираться мирно, без оружия, проводить собрания, митинги, демонстрации, шествия и пикетирования. Как известно, в Киеве и других городах Украины проходят акции общественных активистов и оппозиции под общим названием Евромайдан, которые были спровоцированы решением правительства о приостановлении евроинтеграции от 21 ноября 2013 года. Судья Александр Негласон счел Наумлюка виновным по статье 20.2 КоАП — «Нарушение установленного порядка организации либо проведения собрания, митинга, демонстрации, шествия или пикетирования» и приговорил к штрафу в пять тысяч рублей. «В наведении порядка силовыми методами и разгоне Майдана больше всех заинтересованы сами лидеры парламентской оппозиции. Представители парламентской оппозиции, а также менее радикально настроенные участники акций протеста, сами заинтересованы в разгоне Майдана. После того, как в ночь с 29 на 30 ноября 2013 бойцы спецотряда милиции "Беркут" жестоко разогнали мирную акцию протеста на площади Независимости, гражданские акции Евромайдана переросли в политический протест. На Украине 22 февраля произошла смена власти, имеющая признаки государственного переворота. Формами выражения массовых протестов могут быть такие, как: митинги, демонстрации, пикетирования, кампании гражданского неповиновения, забастовки. Когда митинги оппозиции в декабре только начинались, на площади выходили 100-тысячные демонстрации, требовавшие освобождения политзаключенных, Таисия Осипова надеялась, что ее отпустят. Когда конфликт элит отсутствует или является вялотекущим, шансов у оппозиции практически нет. ..... Часть Онтологии • Объекты: события (акции протеста), люди (активисты, политики), организации (партии, оппозиция, Евромайдан), источники информации (агентства, веб-сайты), время, место • Акции протеста: митинги, демонстрации, пикетирования, кампании гражданского неповиновения, забастовки, собрания, шествия Метод автоматического формирования лингво-статистического портрета предметной области (шаги 1 – 6) 1. выбор ключевых терминов, задающих предметную область 2. поиск и накопление базы релевантных интернет-текстов 3. выделение терминов из текстов и составление частотного словаря предметной области 4. определение списка значимых терминов предметной области, содержащего, в частности, ключевые термины 5. разбиение текстов на сегменты или предложения 6. построение контекста каждого термина в виде набора содержащих его сегментов/предложений Метод автоматического формирования лингво-статистического портрета предметной области (шаги 7 – 10) • 7. построение контекстных векторов для значимых терминов • 8. расчет косинусной меры близости контекстных векторов и выбор ассоциативных связей • 9. выбор кандидатов в состав ключевых терминов из числа наиболее сильных ассоциаций ключевых терминов • 10. пополнение состава ключевых терминов наиболее сильными кандидатами и переход к шагу 1 Semantic similarity calculation • Distributional semantic models • Statistical analysis of Web texts • Special lexico-syntactic patterns (e.g., x "is a" y | y "including" x | x "such as" y) • Context Vector of terms/keywords • Сosine similarity measure Энциклопедия Keywen как механизм коллективного интеллекта • Интернет энциклопедия Keywen.com содержит более 250,000 статей и существует в Интернете более 10 лет. • Это первая энциклопедия, в которую каждый пользователь может внести свой вклад методом электронного голосования за лучшие категории, ключевые слова и фразы. • За последние три года более 120,000 пользователей проголосовали за лучшие определения, категории и фразы и стали соавторами энциклопедии. Голосование одним кликом за лучшее определение Инновационный метод построения структуры категорий в Keywen • Пользователи могут голосовать за главные категории для каждой статьи. Этот вклад пользователей используется для построения оригинальной и крупнейшей структуры категорий для энциклопедии. • Метод запатентован и описан в книге "Keywen Category Structure" Голосование одним кликом за главную категорию статьи Результат голосования одним кликом за главную категорию More Complex Example: A Fragment of Generating Polyhierarchy for Classification of Means of Conveyance 19 Контакты Михаил Михайлович Шарнин к.т.н., снс Лаборатории компьютерной лингвистики и когнитивных технологий обработки текстов http://ipiranlogos.com/ru/Sharnin доцент базовой Кафедры компьютерной лингвистики и формальных моделей языка ИПИ РАН, mc@keywen.com Ирина Вениаминовна Родина директор Центра мониторинга качества знаний и инновационных технологий, Камский институт, Набережные Челны, ir@keywen.com Спасибо за внимание ! Российская Онтология – РосОнт Концептуальная основа информационных систем, в которой задаются знания о мире, предметных областях, мировозренческие позиции, семантический словарь, в котором представлены понятия и соответствующие им термины - слова и словосочетания, организованные в структуры - иерархические, сетевые, с указанием толкований, синонимических рядов, ассоциативных связей для каждого понятия. Уникальность и Инструменты • Уникальность • Уникальная расширяемая информационная система • Инструменты • KeyCrawler - оригинальный семантический навигатор по Интернет Потенциальные потребители • Информационные агентства, госучреждения, университеты, аналитические службы, маркетинговые отделы, социологические центры.