Автоматический синтез речи – процесс генерации речевого сигнала. Понятие синтеза речи используется в двух смыслах: как процесс восстановления речевого сигнала по его параметрам (называемый также ресинтезом сигнала) и как процесс генерации речевого высказывания по произвольному тексту (в этом случае говорят о системах синтеза речи по тексту). При ресинтезе речевого сигнала осуществляется восстановление ограниченного количества речевых образцов, хранящихся в компьютере в цифровой форме. По сложившейся традиции устройства, с помощью которых речевой сигнал в компрессированном и параметризованном виде записывается сначала в цифровую память компьютера, а затем по необходимости воспроизводится, называют синтезаторами речи. Однако в этом случае о синтезе речи можно говорить только условно. Система синтеза речи по тексту осуществляет преобразование произвольного, не известного заранее текста в звучащую речь. В идеале такая система должна имитировать деятельность человека, читающего письменное сообщение любой степени сложности. Человеку такая задача кажется естественной и простой. В реальности же для автоматического синтеза речи по тексту необходимо решить ряд лингвистических задач, основными из которых являются фонетическое транскрибирование (ср., например, написание и произношение слов молоко – малако, лестница – лесница, пюре – пюрэ) и интонационная разметка, которая учитывает тип предложения: повествовательное, вопросительное или восклицательное, а также эмоции, выражаемые через интонацию высказывания. При синтезе речи по тексту решаются также задачи акустической обработки сигнала. Таким образом, система синтеза речи по тексту содержит два основных блока (см. рисунок): Блок лингвистической обработки текста, с помощью которого строится фонетическая транскрипция, а также вычисляются необходимые интонационные характеристики; Блок генерации и цифровой обработки речевого сигнала, в котором на основании созданной фонетической транскрипции и интонационной разметки формируется речевой сигнал. Рисунок. Общая функциональная схема системы синтеза речи по тексту Генерация и цифровая обработка сигнала в современных синтезаторах речи может осуществляться параметрическим методом (артикуляторным или формантным) или конкатенативным (компиляционным) методом. Оба этих способа синтеза требуют значительных вычислительных ресурсов и стали возможны благодаря развитию и широкому использованию компьютерной техники. Интересно, что первые попытки создания «говорящей машины» делались задолго до появления компьютеров. Такие машины были механическими и основывались на моделировании голосового аппарата человека. Так, в конце XVIII века учёный Санкт-Петербургского университета Х. Кранценштейн сконструировал механическую машину, способную произносить пять гласных звуков русского языка: а, о, у, и, э. Наиболее известный механический синтезатор речи создал австрийский учёный В. Фон Кампелен, дополнив синтезатор Кратценштейна моделями легких, голосовых связок и ротовой полости. С помощью такой машины можно было произвести около 20 речевых звуков. Машина Кемпелена управлялась человеком-оператором, действия которого напоминали игру органиста самого высокого уровня. В современных параметрических синтезаторах моделируются физические процессы образования речи либо результат этих процессов: акустические характеристики речевой волны. Характеристики речеобразования (артикуляторные либо акустические) задаются определёнными правилами, описывающими значение и изменение параметров речевого аппарата человека. На основе указанных параметров формируется цифровая версия речевой волны, которая затем озвучивается. В синтезаторах, использующих компиляционный метод, генерация речевого сигнала осуществляется на основе выбора из акустической базы данных и последующей компиляции («склейки») коротких отрезков речевого сигнала. Полученный непрерывный сигнал затем при необходимости обрабатывается для того, чтобы придать речевому высказыванию нужную интонацию. Качество синтезированной речи в компиляционных синтезаторах, как правило, выше качества параметрического синтеза, поскольку в первом случае не моделируются сложные процессы акустики речеобразования, а используются готовые отрезки речевой волны. Системы автоматического синтеза речи по тексту находят широкое применение в человеко-машинных интерфейсах с устным вводом/выводом информации; при речевом управлении различными техническими устройствами; для организация информационно-справочных служб; для создания устройств приема и озвучивания различных сообщений, например, писем электронной почты по телефону; при разработке приспособлений и компьютерных систем для помощи незрячим и слабовидящим; как помощь в обучении иностранному языку и во многих других сферах деятельности человека. Цирульник Л.И.