Анализ статистических алгоритмов снятия морфологической омонимии в русском языке Егор Лакомкин Иван Пузыревский Дарья Рыжова Морфологическая разметка Начальная форма (лемма) грамматические характеристики Я иду по улице. Улице: lex=“улица” gr=“S,f,sg,dat” набор тегов Автоматический морфологический анализ Мама мыла раму lex=«мыть» gr=“V,act,f,indic,ipf,norm,praet,sg,tran” lex=«мыло» gr=“S,inan,n,nom,norm,pl” lex=«мыло» gr=“S,gen,inan,n,norm,sg” lex=«мыло» gr=“S,acc,inan,n,norm,pl” задача выбора правильного варианта (дизамбигуация) Дизамбигуация в текстах на английском языке Методы: Как правило, статистические алгоритмы на основе марковских моделей Точность: ~96% Особенности английского языка Бедная морфология морфологическая разметка фактически сводится к POS-теггингу Фиксированный порядок слов можно опираться только на локальный контекст слова (ближайших соседей) без учёта дальних зависимостей (т.е. достаточно марковских моделей первого порядка) Задача исследования: Проверить экспериментально, применимы ли статистические алгоритмы, основанные на марковских моделях, к задаче морфологической дизамбигуации текстов на русском языке До (серия 1) После (серия 2) Существительное Существительное Местоименное Параметры эксперимента существительное Местоименное существительное Прилагательное Прилагательное (полное) Местоименное прилагательное Местоименное прилагательное Корпус: подкорпус НКРЯ Глагол Глаголсо снятой омонимией Наречие (~6 млн словоупотреблений) Наречие Местоименное наречие Местоименное Mystem наречие Морфологический анализатор: Предикатив Наречие 4 серии экспериментов (2 по 2): Вводное слово Набор Предлог Союз Предлог • Только POS Союзлицо, наклонение, время • POS, род, число, падеж, Междометие Изменённый Частица Наречие частей речи – как в НКРЯ: набор Междометие частей речи: • Только POS Частица • POS, род, число, падеж, лицо, наклонение, время Причастие (полное) 2 алгоритма: HMM и MEMM Причастие (краткое) Прилагательное (краткое) Деепричастие Алгоритмы Набор скрытых величин Y (состояний модели = наборов грамматических тегов); составляют марковскую цепь первого порядка Набор наблюдаемых величин X (наблюдений) ~ словоформ Словоформы заменяем на 3-буквенные окончания: Сокращаем количество наблюдаемых состояний Практически не теряем полезную информацию (поскольку в РЯ почти вся морфологическая информация сосредоточена в окончании) HMM Обучение: Сбор статистик по корпусу: P(yi|yj) – матрица переходов P(xk|yi) – вероятности наблюдений прил сущ глаг -ные -чки -ают MEMM Обучение: Восстановление условного распределения P(yt+1|yt, x) Yt-1 Xt-1 Yt Yt+1 Xt Xt+1 Сбор по корпусу некоторых статистик (=признаков) + применение принципа максимальной энтропии MEMM: признаки наличие у текущего слова фиксированного трехбуквенного окончания, тег, приписанный предыдущему слову, наличие у текущего слова фиксированного разбора, выданного морфологическим анализатором, наличие предлога в окрестности текущего слова, согласованность по роду/числу/падежу с двумя предыдущими словами. Задача алгоритмов: Вычисление наиболее вероятной последовательности скрытых величин Деление выборки на обучающую и тестирующую: Кросс-валидация (5 фолдов): Деление выборки на 5 частей: 4 обучающие + 1 тестирующая 5 серий подсчётов Усреднение результата Оценка качества Определение верхней и нижней границы: Качество работы алгоритма (= точность): Сравнение с «золотым стандартом» - с эталонным разбором НКРЯ: Верхняя граница: процент случаев, когда среди гипотез Mystem’а есть правильная; Нижняя: «частотная снималка» (слову приписывается наиболее частотный вариант разбора, без учёта контекста) общая точность точность по знакомым словам точность по незнакомым словам Не учитывались: Инициалы, аббревиатуры, цифры; Сложные слова с дефисом (ср. бело-кремовый) Результаты теги POS Общ. Зн. Незн. Общ. Зн. Незн. Нижн.гр. .8590 .8586 .8885 .6817 .6836 .5525 HMM .9482 .9489 .8996 .8873 .8909 .6550 MEMM .9516 .9524 .8967 .8670 .8706 .6332 .9895 .9081 .9741 .7017 Верхн.гр. С модифицированным набором частей речи Нижн.гр. .8565 .8560 .8898 .6818 .6838 .5563 HMM .9490 .9498 .8984 .8872 .8908 .6550 MEMM .9519 .9528 .8955 .8686 .8708 .6333 .9895 .9063 .9739 .7053 Верхн.гр. Выводы POS-теггинг – на приличном уровне, причём MEMM чуть лучше, чем HMM Дизамбигуация по расширенным тегам – довольно низкий уровень точности. Случаи, особенно часто разбираемые ошибочно: Местоимения Имена собственные Субстантивация прилагательных Омонимия падежных форм (номинатив vs. аккузатив) Изменение набора частей речи почти не влияет на результат Дальнейшие направления исследования HMM второго порядка Эксперименты с признаками MEMM CRF Возможно, ввод локальных правил Конечная цель: Создание открытого инструмента достаточно высокого качества Спасибо за внимание!