Гладышев Константин Константинович ИНФОРМАТИВНЫЕ ПРИЗНАКИ НА ОСНОВЕ

реклама
На правах рукописи
Гладышев
Константин Константинович
ИНФОРМАТИВНЫЕ ПРИЗНАКИ НА ОСНОВЕ
ЛИНЕЙНЫХ СПЕКТРАЛЬНЫХ КОРНЕЙ
В СИСТЕМАХ РАСПОЗНАВАНИЯ
РЕЧЕВЫХ КОМАНД
Специальность 05.13.01 – Системный анализ,
управление и обработка информации
Автореферат
диссертации на соискание ученой степени
кандидата технических наук
Санкт-Петербург
2010
Работа выполнена на кафедре цифровой вычислительной техники и
информатики в Санкт-Петербургском государственном университете
телекоммуникаций им. проф. М.А. Бонч-Бруевича
Научный
руководитель
доктор технических наук, профессор
Шульгин Евгений Александрович
Официальные
оппоненты
доктор технических наук, профессор,
заслуженный деятель науки РФ
Хименко Виталий Иванович
кандидат физико-математических наук, доцент
Рожков Николай Николаевич
Ведущее
предприятие
ООО «ОДИТЕК»
Санкт-Петербург
Защита состоится «
»
2010 года в
часов на заседании
диссертационного совета Д 219.004.02 при Санкт-Петербургском
государственном университете телекоммуникаций им. проф. М.А. БончБруевича по адресу: 191186, г. Санкт-Петербург, наб. р. Мойки, д. 61.
С диссертацией можно ознакомиться в библиотеке СанктПетербургского государственном университета телекоммуникаций им. проф.
М.А. Бонч-Бруевича по адресу: г. Санкт-Петербург, наб. р. Мойки, д. 65.
Автореферат разослан «
»
Ученый секретарь
диссертационного совета
кандидат технических наук, доцент
2010 г.
В.Х. Харитонов
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. В настоящее время по мере роста объемов информации
компьютерная техника все больше и больше проникает в человеческую жизнь.
Происходит совершенствование интерфейса человек-компьютер. Изобретаются
новые способы отображения информации, модернизируются устройства ввода,
продолжаются поиски такого интерфейса, который устроил бы всех. На эту роль
сейчас претендует интерфейс речевой. Собственно говоря, это как раз то, к чему
человечество всегда стремилось в общении с компьютером.
Работы в этом направлении велись еще в то время, когда о графическом
интерфейсе никто даже и не помышлял. За сравнительно короткий период был
выработан исчерпывающий теоретический базис, и практические достижения
обуславливались только производительностью компьютерной техники. В 60-70х
годах были созданы устройства, способные распознавать десяток речевых команд.
Существенный вклад в развитие систем распознавания речи (СРР) внесли
советские и российские ученые В.Н. Трунин-Донской, Т.К. Винцюк, Н.Г. Загоруйко,
Л.Л. Мясников, зарубежные ученые Д.Д. Маркел, А.Х. Грей, Б. Гоулд, Г. Фант и др.
Множество современных идей при создании систем распознавания речи взято из
области цифровой обработки сигналов. Большой вклад в теоретическом и
практическом планах внесли А.А. Пирогов, А.А. Ланнэ, Л. Рабинер, Р. Шафер, Д.
Макхоул и др.
Современные разработки, как правило, основываются на бионической модели
восприятия речи человеком. Такие системы являются иерархическими,
детерминированными, с обучением и состоят из нескольких взаимосвязанных
уровней. Выделяются акустическая (получение первичных признаков речевых
сигналов) и лингвистическая (работа со словарями) составляющие.
Системы распознавания слитной речи строятся на базе вероятностных моделей
грамматики языка. На словарях объемом до 5000 слов достоверность распознавания
целых фраз составляет более 95%, что считается достаточным для обеспечения
успешного речевого ввода текста на ПК.
Для задачи голосового управления различными устройствами необходимо
распознавание отдельных речевых команд. Как правило, такой способ управления
требует высокой надежности (99% точности распознавания). Зачастую команды
произносятся в условиях повышенной зашумленности, например на производстве.
Современные разработки в лабораторных условиях достигают 95% точности на
словарях до 100 команд и требуют обучающие выборки больших объемов (10 и
более вариантов произнесения каждого слова разными дикторами).
Таким образом, проблема построения эффективных алгоритмов распознавания
речевых команд является актуальной.
Целью диссертационной работы является исследование линейных
спектральных корней в качестве первичных признаков речевых сигналов,
исследование методов работы со словарями эталонов в задаче распознавания
речевых команд.
1
Для достижения поставленной цели необходимо в ходе выполнения
теоретических и экспериментальных исследований решить следующие задачи:
1. провести обзор моделей систем распознавания речи, проанализировать
структуру их модулей, выявить основные недостатки;
2. произвести обоснованный выбор метода формирования первичных
признаков речевых сигналов;
3. выбрать принцип построения и работы со словарями эталонов;
4. уточнить математическую модель системы распознавания речевых команд;
5. разработать программный комплекс для проведения исследований и
тестирования модели распознавания;
6. осуществить проверку предложенных алгоритмов распознавания речевых
команд на тестовых выборках, произвести сравнение с существующими СРР.
Научная новизна заключается в результатах расчетно-экспериментальных
исследований сигналов речевого командного управления, исследованиях первичных
информативных признаков речевых сигналов, принципов построения словарей
эталонов и алгоритмов распознавания речевых команд.
Методы исследования. Решение указанных задач осуществлено на основе
общих методов системного анализа, теории цифровой обработки сигналов,
программирования, методов математической статистики и теории вероятностей.
В качестве инструмента для исследований автором разработан программный
комплекс, позволяющий анализировать речевые сигналы, работать с базами данных
словарей, производить различные математические расчеты и получать табличное и
графическое представление результатов.
Основные положения, выносимые на защиту:
1. Результаты исследования первичных информативных признаков речевых
сигналов, сформированных на основе семейства линейных спектральных корней.
2. Алгоритмы расчета линейных спектральных корней для речевых сигналов и
принцип работы со словарем эталонов при распознавании речевых команд.
3. Обобщенная модель распознавания речевых команд с оценкой качества
словаря эталонов и достоверности принятия решений.
4. Результаты разработки и практической реализации программного комплекса
для анализа и распознавания речевых сигналов.
Практическая ценность. Результаты работы могут быть использованы при
построении командных систем голосового управления различными процессами и
устройствами.
Результаты внедрения. Результаты научных исследований и практические
разработки используются в ООО «ОДИТЕК», г. Санкт-Петербург. Теоретические
результаты внедрены в учебный процесс СПбГУТ им. проф. М.А. Бонч-Бруевича.
Апробация работы. Основные положения, выводы и практические результаты
диссертационной работы обсуждались:
 Научная конференция «Вычислительные и информационные технологии в
науке, технике и образовании» / ПГУ, Павлодар (Казахстан), 2006.
 Научная сессия «IX Невские чтения» / НИЯК, СПб, 2007.
 IV Всероссийская межвузовская конференция молодых ученых / ИТМО,
СПб, 2009.
2
По теме диссертационной работы опубликовано 8 печатных работ (в том числе
одно свидетельство об официальной регистрации программы для ЭВМ), из них 3
работы опубликованы в рецензируемых научных изданиях, входящих в перечень
изданий, рекомендуемых ВАК.
Объем и структура диссертации. Диссертационная работа включает введение,
четыре главы, заключение, список литературы и приложения. Вся работа изложена
на 191 страницах текста, включающих в себя 18 страниц приложений, 70 рисунков,
10 таблиц. Количество библиографических ссылок – 81.
СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность проблемы построения эффективных
алгоритмов распознавания речевых команд в задаче голосового управления
различными процессами и устройствами. Сформулирована цель работы, поставлены
задачи исследования.
Глава 1 посвящена анализу проблемы автоматического распознавания речевых
сигналов. Подробно рассмотрены состояние и тенденции развития этого
направления в России и других странах. Произведен анализ и классификация
существующих систем распознавания речи (рис. 1).
Зависимость
от диктора
Назначение
СРР
Выделение
первичных
признаков
Эталонная
база
Способы
сравнения с
эталонами
Диктонезависимые
Распознавание
произвольной
слитной речи
Преобразование фурье
Фонемы или их
аллофоны
Динамическое
программирование
Дикторозависимые
Распознавание команд
Вейвлет
преобразования
Фонетические
слоги
Нейронные
сети
Поиск слов в
непрерывной
речи
Линейное
предсказание
Набор слов
Скрытые
марковские
модели
Распознавание
говорящего
Набор фраз
Рис. 1. Классификация моделей СРР по различным признакам
Современные системы распознавания речи (СРР), как правило, имеют
иерархическую модульную структуру. На первом уровне выполняется
предварительная обработка – выделение акустических признаков, характеризующих
речевые сигналы. Одним из наиболее часто используемых методов является
линейное предсказание (ЛП). Полученные на основе ЛП признаки обладают рядом
полезных свойств – они просто рассчитываются, дают компактное представление
РС, наименее чувствительны к действиям помех.
3
Следующий уровень СРР является лингвистическим. В него входит процедура
поиска по словарям эталонов. В задачах распознавания слитной речи строятся
вероятностные грамматики языка, благодаря чему достигается высокая степень
распознавания целых фраз.
При распознавании отдельных речевых команд слово произносится диктором
без окружающего контекста. Обучение таких систем является трудоемким
процессом. Для повышения надежности обычно используются большие обучающие
выборки (10 и более вариантов произнесения одного слова разными дикторами).
Каждое слово моделируется скрытой Марковской моделью или нейронной сетью.
При построении систем, ориентированных на одного диктора, возможно
использование более простого метода поиска по словарям – нелинейного
временного выравнивания (динамического программирования). В таком случае в
процессе обучения каждый эталон записывается только один раз.
В диссертационной работе приведена классификация речевых единиц: фонемы
и аллофоны, слоги, целые слова и фразы. Сделан вывод, что минимальную
эталонную речевую единицу следует выбирать в зависимости от назначения СРР.
Представлена общая модель функционирования системы распознавания
речевых команд. Выделено два этапа работы системы (рис 2).
1. Обучение:
Запись
эталонов с
микрофона
Расчет
векторов
признаков
Проверка
качества
словаря
Расчет
векторов
признаков
Поиск
ближайшего
по словарю
Сохранение
в БД
2. Распознавание:
Запись
команды с
микрофона
Оценка
достоверности
Рис. 2. Общая схема системы распознавания речевых команд
Глава 2 посвящена анализу модели расчета ЛСК и методике использования их
в качестве первичных признаков РС.
Метод расчета признаков речевого сигнала – ЛСК
Речевой сигнал описывается в терминах линейных дискретных систем с
переменными параметрами и передаточной функцией в частотной области вида
q
H ( z) 
S ( z)
 G
U ( z)
1   bl  z l
l 1
p
1   ak  z  k
.
(1)
k 1
Наиболее широко для описания РС применяется полюсная модель линейного
предсказания, представляемая в виде
4
H z  
1
G
A z 
1
N
1   ai z
i
,
(2)
i 1
где N – порядок модели.
Параметрами такой модели являются коэффициенты линейного предсказания
{а}, вычисляемые на каждом кадре речевого сигнала, или эквивалентные им
параметры – ЛСК, предложенные Итакурой.
Корни в общем случае могут быть получены в результате решения двух
уравнений:
Re{ z R AN ( z )} jˆ  0, Im{ z R AN ( z )} jˆ  0 при R  (N / 2) ,
(3)
z e
z e
где A ( z )  1   a z .
N
N
i 1
i
i
При этом на основании новой теории ЛСК, предложенной А.А. Ланнэ, корни
могут рассчитываться по-разному в зависимости от параметра R. В рамках этой
теории выделено несколько частных случаев расчета ЛСК.
Модель расчета ЛСК для R = N
В настоящей работе рассматривается случай, когда R = N = 10. Достаточно
решить только одно уравнение порядка N, чтобы по его корням найти все
коэффициенты исходного многочлена.
Задается порядок модели (степень аппроксимирующего полинома) ORD. На
вход поступает отрезок сигнала (кадр) длительности FRM:
(4)
SG  sg 0 , sg1 ,..., sg FRM .
Для устранения граничных эффектов производится сглаживание весовой
функцией Хэмминга:
shi  sg i  (0,54  0,46  cos(
2i
)) ,
FRM  i
(5)
где i  0...FRM
Выполняется расчет коэффициентов передаточной функции с помощью метода
наименьших квадратов и алгоритма Левинсона-Дарбина.
Первичная инициализация:
FRM
 sg
E0 
i 1
2
i
.
(6)
В цикле от 1 до ORD производятся следующие вычисления.
 Вычисление коэффициента автокорреляции:
Ri 
FRM
 sg sg
l
l 1
l i
.
(7)
 Вычисление коэффициента отражения:
i
ri 
Ri   ak
( i 1)
k 1
Ei 1
Ri  k
.
 Задание первоначального приближения:
(i )
ai  ri .
 Уточнение значений коэффициентов:
5
(8)
(9)
ak
(i )
 ak
( i 1)
 ri ai(i k1) ,
(10)
где 1  k  i 1 .
 Вычисление текущей ошибки предсказания:
Ei  (1  ri 2 ) Ei 1 .
 На последнем шаге цикла получается окончательное решение:
ak  ak(k ) , где 1  k  i 1 .
Далее расчет коэффициентов отражения по формулам кратных дуг:
G  g 0 , g1 ,..., gORD .
Поиск корней полинома методом Ньютона:
G ( x) 
(11)
(12)
(13)
ORD
g x
i 0
i
i
.
(14)
Расчет набора ЛСК:
wi  arccos( xi ) ,
(15)
где i  0...ORD 1.
Использование ЛСК в качестве информативных признаков РС
При расчете ЛСК на продолжительном РС (рис. 3), производится его разбиение
на кадры с перекрытием. В результате расчетов получается набор значений ЛСК
(рис. 4).
Рис. 3. Временная диаграмма гласных фонем «а», «и», «о»
Рис. 4. Набор ЛСК для трех фонем (порядок модели – 10 корней)
На рис. 4 наблюдается возбуждение определенных корней при произнесении
фонем. Это обусловлено тем, что ЛСК несут в себе спектральную информацию о
РС. Возбуждение корней происходит в области формантных частот гласных звуков.
6
Значение каждого ЛСК используется в качестве координаты в N-мерном
пространстве признаков. На рис. 5 и 6 показаны образы трех фонем в двухмерном и
трехмерном подпространствах. Соединительные линии между точками отображают
последовательность кадров РС. Для некоторых комбинаций ЛСК наблюдается
уверенное разделение фонем – точки группируются в пределах одной области. Это
свойство позволяет использовать ЛСК в качестве информативных признаков в СРР.
Рис. 5. Образы фонем в двухмерном подпространстве признаков ЛСК
Рис. 6. Образы фонем в трехмерном подпространстве признаков ЛСК
В главе 3 рассматриваются модели построения словарей эталонов, методики
поиска по ним, проводится критерий для оценки достоверности распознавания
речевой команды.
Выбор методики формирования словаря эталонов
Распознавание речи путем выделения отдельных фонем на практике не
принесло существенных результатов. Если вернуться к проблеме восприятия речи
человеком, то оказывается, что даже опытные фонетисты с трудом справляются с
задачей расчленения слитной речи на короткие сегменты. Зачастую чтобы
распознать отдельную фонему, слушателю необходимо услышать слово целиком
или даже несколько рядом стоящих слов.
Известно, что чем продолжительнее речевая единица, тем лучше она
воспринимается на слух. Исходя из этого, для системы распознавания речевых
команд в качестве эталонов наиболее целесообразно использовать целые слова.
7
На рис. 7 и 8 показаны два слова, записанные от разных дикторов. Слова
представлены в виде точек в подпространстве двух ЛСК. Очевидно, что отдельные
фонемы достаточно трудно выделить из целого слова. Соединительные линии
(траектории точек ЛСК) отображают перестроение голосового тракта человека в
процессе произнесения звуков. Для одних и тех же слов траектории визуально
схожи. Это свойство позволяет использовать наборы векторов ЛСК, с учетом их
временной последовательности, в качестве элементов обучающих словарей.
Рис. 7. Образы слова «сообщение» для двух разных дикторов
Рис. 8. Образы слова «настройки» для двух разных дикторов
Оценка меры близости между входным РС и эталоном производится с
помощью метода нелинейного временного выравнивания (динамического
программирования). Это один из наиболее мощных и широко известных
математических методов современной теории управления, был предложен в конце
50-х годов американским математиком Р. Беллманом для решения
оптимизационных задач. Метод позволяет сравнивать разные по длительности
образцы. Применимо к речевым сигналам это означает, что сравнение с эталонами
возможно практически независимо от темпа речи.
Пусть сравнивается два образца сигналов, представленных в виде массива
векторов (для РС это наборы ЛСК):
X  x 0 , x1 ,..., x i ,..., x N  и Y  y 0 , y1 ,..., y i ,..., y M .
(16)
Различие между векторами двух образов определяется последовательностью
состояний CK и обозначается:
F ()  C0 , C1 ,..., Ck ,..., CK ,
(17)
8
где C0 и CK – начальное и конечные состояния, F ()
функция временного
выравнивания, которая проецирует временную область одного образа на временную
область другого образа.
Метод ДП заключается в том, что ищется такая функция F () , при которой путь
из состояния C0 в состояние CK , является оптимальным, т.е. будет получено
минимальное накопленное расстояние между двумя образами.
При построении оптимального пути, на каждом шаге алгоритма используется
основная формула ДП:
di , j
di , j 1  r ( xi , y j ) 




 min di 1, j 1  r ( xi , y j ) , где i  0...N , j  0...M .


di 1, j  r ( xi , y j ) 


(18)
В качестве расстояния между векторами используется взвешенная евклидова
метрика:
r ( x, y) 
N _ SEC 1
( x
k 0
k
 yk )2 ,
(19)
где N_SEC – размерность векторов признаков.
На выходе процедуры сравнения получается некоторое число (мера близости),
представляющее собой величину, обратную степени близости между сигналами.
Процедура поиска по словарю заключается в последовательном сравнении
входного сигнала с каждым из эталонов речевых команд. В табл. 1 показан
результат поиска команды «сообщение» в словаре из четырех командных слов. В
результате входной сигнал правильно распознан системой. На рис. 9 отображаются
траектории кратчайших переходов по кадрам от эталонных сигналов к
распознаваемому. Данные по оси ординат нормированы по длительности эталонных
сигналов. По оси абсцисс идут номера кадров входного сигнала. Участки с крутыми
переходами
между
точками
отображают
автоматическое
временное
масштабирование сигналов. Это происходит, например, если при произнесении
диктором растягивается гласный звук.
Таблица 1
Мера близости
Эталон командного слова
Сообщение
Журнал
Диспетчер
Календарь
1,85
5,13
6,82
4,33
Идеальный случай, когда распознаваемый сигнал совпадает с эталонным,
представляет собой диагональную ступенчатую траекторию из левого нижнего угла
в верхний правый. На рис. 9 для эталонов «журнал» и «календарь» наблюдается
существенное отклонение от диагонали, что может являться дополнительным
критерием для принятия решения при распознавании слов.
9
Рис. 9. Оптимальные траектории при сравнении с эталонами
До того как будет распознано целое командное слово, на базе предложенной
модели возможно распознавание более мелких речевых единиц. Это позволит
сократить область поиска в словаре и повысить точность алгоритма. На рис. 11
представлен результат распознавания целого слова «режимы» на словаре,
состоящем из набора слогов. В качестве одного из элементов словаря используется
«эталон тишины» (обозначен как «_»), что позволяет без применения
дополнительных алгоритмов выделять паузы в речевых сигналах.
Рис. 10. Временная диаграмма слова «ре-жи-мы»
Рис. 11. Результат поиска слогов: «__ререре__жижижижи_мымыомымы____»
Входной сигнал разбивается на кадры по средней длине эталонов. На графике
показаны диаграммы меры близости до каждого из эталонов для всех кадров
речевого сигнала. В результате получаем последовательность распознанных слогов.
Путем свертки и дальнейшей семантической обработки возможно получение целого
10
слова. Данная методика может использоваться для построения СРР на словарях
больших объемов.
Предложено решение задача поиска слов в непрерывном речевом потоке. В
качестве элементов словаря используются целые слова. На вход системы подается
продолжительный участок речевого сигнала. В данном примере, фраза: «Черная
тойота номер три два один в сторону Питера» (рис. 12).
Поиск идет без предварительной сегментации фразы на отдельные слова. На
рис. 12 и 13 наблюдаются локальные минимумы в области искомых эталонных
единиц. На рис. 15 ярко выраженного минимума нет, так как искомое слово
(«зеленая») не было произнесено в предложении. Соотношение значения средней
меры близости по всем кадрам РС и значения меры близости на локальном
минимуме является критерием, позволяющим автоматически определять,
присутствует ли вообще искомое слово в анализируемой фразе.
Рис. 12. Временная диаграмма целой фразы
Рис. 13. Поиск слова «черная» (соотношение меры близости = 0,5)
Рис. 14. Поиск слова «номер» (соотношение меры близости = 0,5)
Рис. 15. Поиск слова «зеленая» (соотношение меры близости = 0,8)
Критерий для оценки достоверности распознавания слов
При распознавании речевых команд на базе словаря из набора целых слов,
получается таблица со значениями меры близости до элементов словаря. Эталон с
минимальным значением является искомым – распознанным. Даже если на вход
системы будет подано слово, не входящее в словарь, в любом случае будет получен
результат – один из эталонов. Что приведет к ошибке распознавания.
Предложено решение задачи автоматического отсеивания ложных
срабатываний системы. Таблица результатов распознавания нормируется (табл. 2).
Далее подсчитывается разница в значении меры близости между первым и вторым
эталоном. В данном примере это 0,73. Если эта разница не превышает пороговое
11
значение 0,5, то слово будет считаться нераспознанным и системой будет выдан
запрос на повторный ввод команды. Предложенный критерий позволяет оценивать
достоверность распознавания текущего слова.
Таблица 2
Эталон
Сообщение
Память
Настройки
Часы
Офис
Режимы
Средства
Контакты
Темы
Журнал
Связь
Календарь
Мера близости
1,74
3,01
3,06
3,45
3,53
3,68
4,06
4,13
4,15
4,25
4,58
4,70
После нормировки
1,00
1,73
1,75
1,98
2,03
2,11
2,33
2,37
2,38
2,44
2,63
2,70
Оценка влияния параметров модели ЛП на достоверность распознавания
В ходе опытов, на словаре из 42 командных слов от 4 дикторов, варьировался
размер кадров РС и степень аппроксимирующего полинома (порядок модели). На
рис. 16 и 17 приведены графики соответствующих зависимостей. Наилучшая
достоверность распознавания достигается, когда размер окна совпадает с периодами
основного тона РС. При изменении порядка модели, максимум достигается на 10
корнях, далее наблюдается пологий график кривой.
достоверность распознавания
0,600
0,500
0,400
0,300
0,200
0,100
0,000
0
100
200
300
400
500
600
размер окна
Рис. 16. Влияние размера окна на достоверность распознавания
достоверность распознавания
0,600
0,500
0,400
0,300
0,200
0,100
0,000
0
2
4
6
8
10
12
14
16
порядок моде ли ЛП
Рис. 17. Влияние порядка модели на достоверность распознавания
12
Результаты исследований согласуются с общеизвестными оценками
оптимальных параметров модели ЛП. Что подтверждает адекватность
предложенного критерия оценки достоверности распознавания речевых команд.
Оценка качества сформированного словаря эталонов
При использовании системы распознавания речевых команд в условиях
повышенной зашумленности или на узкополосных каналах связи, даже на словарях
малых объемов (до 50 слов) возможно большое количество ошибок. Для увеличения
надежности предложено использовать коррекцию словаря эталонов.
После формирования словаря производится анализ того, насколько элементы
отличаются друг от друга (табл. 3). Подсчитывается среднее значение (в данном
примере 3,04). Если некоторые элементы словаря слишком похожи друг на друга
(мера близости меньше порога, равного 2), то предлагается заменить один из
эталонов, например, синонимом. После этого производится повторный анализ
словаря.
В данном примере (табл. 3), после замены одного из похожей пары слов «темы»
или «режимы», процент правильно распознанных команд увеличился на 9,8%.
2,64
2,83
2,59
2,54
3,07
3,11
3
2,77
2,99
2,45
2,78
2,87
2,24
2,77
3,47
2,96
3,32
2,53
2,36
3,11
2,73
2,4
3,09
3,15
2,71
3,51
2,87
3,34
2,72
3,17
3,41
2,59
2,66
2,59
3,01
4,73
4,24
4,35
3,07
3,48
2,6
3,44
4,29
2,8
3,15
3,1
3,46
3,31
4
2,72
3,01
4,16
3,77
3,21
Часы
Темы
Средства
Сообщение
Связь
Режимы
Память
Офис
Настройки
Контакты
Эталоны
Журнал
Календарь
Контакты
Настройки
Офис
Память
Режимы
Связь
Сообщение
Средства
Темы
Среднее
Календарь
Таблица 3
2,39
2,28
2,52
2,82
2,46
3,06
1,95
2,4
3,9
2,4
2,64
3,54
3,47
3,49
3,33
3,2
3,7
3,23
2,98
3,23
3,2
2,88
3,30
В главе 4 приводится подробное описание разработанного программного
комплекса для анализа речевых сигналов. Представлена алгоритмическая модель
системы распознавания речевых команд. Приведены результаты тестирования
данной системы.
В программном комплексе реализованы основные функции:
 расчет массива линейных спектральных корней с возможностью настройки
параметров модели;
 расчет статистических признаков различных порядков;
 cравнение сигналов методом динамического программирования;
 оценка достоверности распознавания команд по словарю;
 анализ влияния параметров расчета ЛСК на качество распознавания;
 использование произвольных речевых единиц в качестве эталонов;
13
 кластеризация словарей различными методами;
 хранение словарей эталонов в базе данных;
 графический и табличный вывод полученных результатов.
На базе модулей программного комплекса построена опытная система
распознавания речевых команд. Система выполняет все операции, начиная с записи
входного сигнала с микрофона и заканчивая выдачей распознанной команды в виде
текстового сообщения на экране ПК.
Представлена алгоритмическая модель системы, на основании которой в
любой современной среде разработки возможно построение программного
комплекса, использующего процедуру распознавания команд. Кроме того,
отдельные модули системы готовы к реализации на базе программируемых
аппаратных средств (DSP-процессоры, ПЛИСы и т.д.) с возможностью
распараллеливания вычислительных операций.
В работе проведено тестирование модели распознавания речевых команд.
Выполнен сравнительный анализ ЛСК и других распространенных методов
получения первичных признаков речевых сигналов. Сравнение проводилось на
одних и тех же тестовых образцах.
В качестве эталонной базы использовались 42 командных слова,
надиктованных четырьмя дикторами. На вход подавались сигналы от этих же
дикторов, по одному варианту произнесения каждой команды. Оценивался процент
ошибок и средняя достоверность распознавания. Если была допущена ошибка, то
текущая команда не участвовала в подсчете среднего. Также было подсчитано
среднее время расчета набора первичных признаков для одного командного слова.
В табл. 4 показаны результаты распознавания для четырех вариантов
первичных признаков:
 LSP – линейные спектральные корни (пары)
 LPC – коэффициенты линейного предсказания
 PLP – коэффициенты перцептивного предсказания
 MFCC – мел-кепстральные коэффициенты
Наборы признаков PLP и MFCC подсчитаны с помощью соответсвующих
модулей системы распознавания Sphinx4 (бесплатная разработка с открытым кодом
на Java от американского университета Карнеги-Меллон).
Таблица 4.
Время расчета, мс
LSP LPC PLP MFCC
Мужчина1 9,05 3,05 13,09 13,02
Мужчина2 8,45 2,85 11,91 12,30
Женщина1 8,31 2,24 12,20 11,50
Женщина2 7,95 2,15 10,30 10,23
Среднее
8,44 2,57 11,88 11,76
Дикторы
LSP
1,91
0,78
1,46
1,35
1,38
Достоверность
LPC PLP MFCC
1,30 1,49
1,13
0,41 0,78
0,69
0,90 1,07
1,06
0,75 0,99
0,95
0,84 1,08
0,96
LSP
0,00
4,76
3,84
2,86
2,87
% ошибок
LPC
PLP MFCC
4,76
2,38
2,38
23,80 23,80 19,05
19,23
7,69
7,69
8,57
5,71
5,71
14,09
9,90
8,71
Видно, что для ЛСК наблюдается минимальный процент ошибок 2,87% и
максимальная степень достоверности 1,38. При этом время расчета сопоставимо с
остальными методами. Что позволяет говорить о возможности успешного
применения данных признаков в более сложных системах распознавания речи.
В заключении перечисляются основные результаты диссертационной работы.
14
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
1. Произведен анализ современных систем распознавания речи. Выявлены
основные недостатки алгоритмов распознавания речевых команд – недостаточная
надежность и большой объем обучающей выборки.
2. Выполнено исследование линейных спектральных корней в качестве
информативных первичных признаков речевых сигналов, приведено обоснование их
алгоритма расчета.
3. Выбран принцип формирования словарей эталонов речевых команд и
обосновано использование метода нелинейного временного выравнивания
(динамического программирования) для поиска по словарям.
4. Уточнена алгоритмическая модель системы распознавания командных слов,
готовая к реализации в программной или аппаратной среде.
5. Определен критерий для оценки достоверности распознавания речевой
команды, позволяющий отсеивать ложные срабатывания алгоритма распознавания.
6. Предложена методика оценки качества сформированного словаря эталонов,
позволяющая выявить похожие по звучанию речевые команды.
7. Показано решение задачи поиска различных речевых единиц (ключевых
слов, слогов или пауз) в непрерывном речевом потоке на базе используемых
методов распознавания.
8. Разработан программный комплекс, позволяющий анализировать речевые
сигналы, работать с базами данных словарей, производить различные
математические расчеты и получать табличное и графическое представление
результатов исследований.
9. Проверена работа системы распознавания в сравнении с другими методами
получения первичных признаков на одинаковых наборах эталонных и тестовых
данных. Для ЛСК получен наименьший процент ошибок 2.87%, что позволяет
говорить о возможности успешного использования данных признаков в более
сложных системах распознавания речи.
СПИСОК ОПУБЛИКОВАННЫХ РАБОТ
1. Гладышев, К.К. Программный комплекс для исследований в задачах
распознавания речи на основе аппарата линейного предсказания [Электронный
ресурс] / К.К. Гладышев // Научная конференция «Вычислительные и
информационные технологии в науке, технике и образовании»: тез. докл. / ПГУ. –
Павлодар
(Казахстан),
2006.
–
Режим
доступа:
http://www.nsc.ru/ws/show_abstract.dhtml?ru+148+10143.
2. Гладышев, К.К. Влияние основных физических параметров речи на качество
ее распознавания / К.К. Гладышев. 2007. СПбГУТ. 9 с. Деп. в ВИНИТИ 26.06.07. –
№ 676-В2007.
3. Свидетельство об официальной регистрации программы для ЭВМ 2007614250
РФ. Программа распознавания речевых информационных сигналов / К.К. Гладышев
и др. // Информационный бюллетень официальной регистрации РосАПО. 2007.
15
4. Гладышев, К.К. Распознавание русской речи на основе аппарата линейного
предсказания / К.К. Гладышев // Научная сессия «IX Невские чтения»: тез. докл. /
НИЯК. – СПб, 2007. – С. 230.
5. Гладышев, К.К. Проблема выбора эталонной единицы при распознавании
речи / К.К. Гладышев // Журнал научных публикаций аспирантов и докторантов. –
2008. – № 9. – С.244–247 (входит в перечень ВАК).
6. Гладышев, К.К. Система поиска ключевых слов в непрерывном речевом
потоке / К.К. Гладышев // Естественные и технические науки. – 2009. – № 1. – С.
242–244 (входит в перечень ВАК).
7. Гладышев, К.К. Система автоматического распознавания речевых команд /
К.К. Гладышев, Е.А. Шульгин // Известия высших учебных заведений.
Приборостроение. – 2009. – № 3. – С. 17–21 (входит в перечень ВАК).
8. Гладышев, К.К. Распознавание отдельных слов в разговорной речи
[Электронный ресурс] / К.К. Гладышев // VI Всероссийская межвузовская
конференция молодых ученых: тез. докл. / ИТМО – СПб, 2009. – Режим доступа:
http://fppo.ifmo.ru/kmu/kmu6/ВЫПУСК_6/Ready_инф_техн/52_Gladyshev_K_K.pdf.
Подписано к печати 09.09.2010
Объем 1 печ. л. Тир. 80 экз., заказ №27
Отпечатано в СПбГУТ. 191186 СПб, наб. р. Мойки, 61
16
Скачать