СТАТИСТИЧЕСКИЕ МЕТОДЫ ФОРМИРОВАНИЯ ФОНЕТИЧЕСКИХ ТРАНСКРИПЦИЙ Д.С. Захаров (Университет ИТМО, Санкт-Петербург, Россия)

реклама
УДК 519.688
СТАТИСТИЧЕСКИЕ МЕТОДЫ ФОРМИРОВАНИЯ ФОНЕТИЧЕСКИХ
ТРАНСКРИПЦИЙ
Д.С. Захаров (Университет ИТМО, Санкт-Петербург, Россия)
Научный руководитель: С.В. Рыбин (Университет ИТМО, Санкт-Петербург, Россия)
В речевых технологиях, в частности в системах синтеза и распознавания речи,
большую роль играют методы, устанавливающие соответствие между орфографической
(написание) и фонетической (произношение) формами слова. Эту задачу можно решать
несколькими способами, в том числе составлением словаря, или созданием правил
преобразования написания в произношение. В любом случае это требует больших
трудозатрат и специальных лингвистических знаний. Особенно эта проблема актуальна при
внедрении новых языков, если специалистов по ним достаточно трудно найти. При этом
сильно помогает использование статистических методов формирования транскрипций на
основе существующих данных. Но их использование в чистом виде возможно только при
наличии достаточного объёма исходных данных, что не всегда доступно.
Конечная цель работы – создание системы, помогающей быстро накапливать и
формировать языковые данные с минимальным использованием специальных знаний,
создавать из этих данных необходимые модели для использования в распознавании и синтезе
речи. На данном этапе решалась задача обзора современных методов статистического
транскрибирования и их анализа.
Grapheme-to-Phoneme conversion (G2P) – задача преобразования орфографической
формы слова (последовательность букв – графем) в соответствующее ему наиболее
вероятное произношение (последовательность фонем). Основная сложность заключается в
том, что для многих языков орфографическое написание слов может быть давно
канонизировано, но вследствие развития самого языка произношение этих слов со временем
менялось, и уже мало соответствует написанию. Степень такого несоответствия
(регулярность) зависит от конкретного языка. К примеру, для английского такая связь очень
слаба, в то время как для эстонского - достаточно сильна.
Существует множество подходов к решению этой задачи. Самый распространённый
из них – составление словарей. Несмотря на высокую точность такого решения, во-первых
это требует много человеческих ресурсов и специальных знаний, во вторых – не применим
для новых слов. Другой подход – составление правил преобразования слов в произношение.
В данном случае решается только проблема новых слов, а не трудозатрат и требуемых
знаний. К тому же не все языки легко подвергаются описанию правилами.
В последние несколько лет активно развиваются и всё чаще используются
статистические методы построения транскрипций. Транскрибирование в некотором роде
является задачей машинного перевода одной последовательности символов в другую. По
этой причине в данной задаче широко применяются языковые модели. По исходному
словарю строится статистическая модель, позволяющая генерировать транскрипции. Такое
решение может неплохо заменить транскрибирование по правилам, при этом требуя
значительно меньше человеческих ресурсов при подготовке транскрипций для нового языка.
В работе проведён анализ двух наиболее часто используемых типов G2P моделей.
Проведены эксперименты с данными моделями и получены результаты для 3-х языков –
русского, английского и казахского. Причём для последнего в литературе не представлено
схожих показателей. Проведена оценка, как общей точности моделей, так и зависимости
объёма данных для обучения от точности.
Захаров Д.С. ________________
Научный руководитель к.ф.-м.н., доцент Рыбин С.В. _______________
Заведующий кафедры РИС д.т.н. профессор Матвеев Ю.Н. ________________
Скачать