Количественный анализ шумных глухих щелевых

реклама
4Ф
УДК 004.934.1’1
Е.Е. Федоров, И.А. Шевцова
Институт проблем искусственного интеллекта, г. Донецк, Украина
fee@iai.donetsk.ua
Количественный анализ шумных глухих
щелевых и смычно-щелевых звуков
При создании систем распознавания речи важную роль играет выбор признаков, на основе которых
формируются эталоны звуков речи. Для решения этой задачи в статье с помощью методов
максимумов проведен количественный анализ шумных глухих щелевых и смычно-щелевых звуков.
Постановка проблемы
В современной отечественной и мировой практике активно ведутся разработки
естественно-языковых систем общения «человек – компьютер», одной из составных
частей которых может быть система распознавания речи. При создании системы
распознавания необходимо решить задачу выбора словаря признаков. Для решения
этой проблемы авторами проведен количественный анализ шумных глухих щелевых
и смычно-щелевых звуков русского языка, результаты которого представлены в
данной статье.
Анализ исследований
В работах [1-4], посвященных анализу языка и речи, рассматриваются
математические модели и методики, не учитывающие классификацию звуков речи.
Постановка задачи
Провести количественный анализ шумных глухих щелевых и смычно-щелевых
звуков с целью формирования их эталонов.
Решение задачи
Для распознавания звуков речи было решено выбрать направление, основанное на
сравнении с эталоном. Оно включает в себя вычисление вектора признаков для записанного сигнала x  ( x1 ,..., xn ) и сравнение его с эталоном E  (e1 ,..., en ) согласно (1) .
m   ( x, e)
308
(1)
«Искусственный интеллект» 3’2005
Количественный анализ шумных глухих щелевых и смычно-щелевых звуков
4Ф
В этой статье рассматриваются два метода, которые используются для исследования
шумных глухих щелевых и смычно-щелевых звуков: метод максимумов без применения
фильтрации и метод максимумов с применением фильтрации.
Из современных исследований известно, что самая укрупненная классификация
речи [5], [6] (рис. 1) содержит гласные, сонорные, шумные звонкие и шумные глухие
составляющие. В свою очередь, сонорные и шумные подразделяются на щелевые и
смычные, а в шумных глухих выделяют еще и аффрикаты (смычно-щелевые).
Объектом исследования будут выступать именно шумные глухие щелевые и
смычно-щелевые. Это объясняется тем, что этим звукам уделялось меньше
внимания, чем тональным. Этим они представляют интерес для исследования.
Рассмотрим детально два метода максимумов, используемых при распознавании звуков речи.
Звуки речи
Шумные
глухие
Щелевые,
аффрикаты
(смычнощелевые)
Смычные
|ц | |ч | |ф| |ф’| |с | |с’|
Сонорные
(сонанты)
Шумные
звонкие
Щелевые
Смычные
Щелевые
Гласные
Смычные
|ш | |ш’| |х | |х’|
Рисунок 1 – Классификация групп звуков речи
Метод максимумов без использования
сглаживающего фильтра
Метод базируется на учете максимумов в сигнале.
X  {x1 ,..., xn } – оцифрованный звуковой сигнал.
Определяется длина импульса z
2,
3,

z  4,
5,

6,
«Штучний інтелект» 3’2005
l 2
l 3
l  4 , z [2,6] ,
l 5
l 5
(2)
309
Федоров Е.Е., Шевцова И.А.
4Ф
где l – число отсчетов между двумя соседними локальными максимумами сигнала
( xi 1  xi  xi 1 ).
Далее вычисляется nk – количество импульсов длины к+1 и общее количество
импульсов:
5
n
 nk .
(3)
k 1
E1  (e1 ,..., e5 ) – вектор признаков, где
импульсов длины k + 1.
e k  n k / n – нормированное количество
Метод максимумов с применением
сглаживающего фильтра
Метод базируется на учете максимумов в сглаженном сигнале.
X  {x1 ,..., xn } – оцифрованный звуковой сигнал.
Сигнал подвергается M-кратному сглаживанию фильтром
yj 
x j 1  x j  x j 1
3
.
(4)
Далее вычисляется разность исходного и сглаженного сигналов
(0)
yj
 xj  y j.
(5)
Затем определяется длина импульса z
l , 2  l  20

20   l  20 , 20  l  50
 6 



, z  [2, 29] ,
z
l

50


25 
 10  , 50  l  90


29, l  90
(6)
где l – число отсчетов между двумя соседними локальными максимумами сигнала
( y (j0)1  y (j0)  y (j0)1 ), и количество импульсов nk(0) длины k+1.
После чего в цикле i 1, N сигнал подвергается двукратному сглаживанию
фильтром (7)
y(ji)

y(ji11)  y(ji1)  y(ji11)
3
(7)
и рассчитывается количество импульсов n k(i ) .
310
«Искусственный интеллект» 3’2005
Количественный анализ шумных глухих щелевых и смычно-щелевых звуков
4Ф
По завершении цикла вычисляется общее количество импульсов одинаковой длины
N
n k   n k(i) , k 1,28 ,
(8)
i 0
и количество всех импульсов
28
n
 nk ,
(9)
k 1
E 2  (e1 ,..., e28 ) – вектор признаков, где e k  n k / n – нормированное количество
импульсов длины k+1.
В работе проведены исследования методом максимумов без использования
гребенки сглаживающих фильтров звуков ‫׀‬c‫׀‬, ‫׀‬ш‫׀‬, ‫׀‬ч‫׀‬, ‫׀‬ц‫׀‬. (табл. 1-4).
Таблица 1 – Оценка мат. ожидания для звука ‫׀‬с‫ ׀‬в сочетании с гласными
звуками
№
призн
1
2
3
4
5
са
се
си
сы
ся
со
су
сю
22,5
25
26
7,833
2,833
10,75
22
31
15,75
4,75
13,875
15,875
29,625
11
3,875
14,833
14,667
23,667
8,333
4,5
19
27,2
31,4
7,4
3
27,333
12
21,5
10,833
7,167
26,875
14,5
7,25
9,75
11
21,375
10,375
14
16
9,875
Таблица 2 – Оценка мат. ожидания для звука ‫׀‬ш‫ ׀‬в сочетании с гласными
звуками
№
призн
1
2
3
4
5
ша
ше
ши
шо
шу
2,143
7,714
14,714
12,143
12,571
3
4,545
10,545
9,364
14,182
2,875
9,25
12,25
13,5
7
2,375
9,375
15,25
12,25
4,5
3
6,889
27,889
22
4,667
Таблица 3 – Оценка мат. ожидания для звука ‫׀‬ч‫ ׀‬в сочетании с гласными
звуками
№ призн
1
2
3
4
5
ча
2
9,4
12,2
10
12,6
че
3
12,2
11,8
8
17
«Штучний інтелект» 3’2005
чи
2,833
16,5
14,333
6,667
11,833
чо
2
13,667
14
5,333
1,667
чу
2,333
16,333
14,333
6
2,333
311
Федоров Е.Е., Шевцова И.А.
4Ф
Таблица 4 – Оценка мат. ожидания для звука ‫׀‬ц‫ ׀‬в сочетании с гласными
звуками
№ призн
1
2
3
4
5
ца
42,5
23,25
19,25
8,25
3,75
це
11
27
23
8,143
3,571
ци
12,429
23,286
26,143
8,571
5,143
цо
52,6
17,4
16,4
4,4
6,4
цу
32,167
12,667
4,5
11,5
10
цы
34,5
29,75
26,75
6,5
1,75
цю
19,6
10,4
7,8
11,4
9,4
ця
13,4
24,6
17,6
6,6
3,2
На основании среднестатистических оценок звуков речи (табл. 1-4) была
произведена следующая классификация (рис. 2)
Шумные глухие щелевые и
смычно-щелевые звуки
ш, ч
ш
с, ц
ч
с
ц
Рисунок 2 – Классификация шумных глухих щелевых
и смычно-щелевых звуков
После анализа полученных данных можно сделать следующие выводы:
1. Звуки ‫׀‬с‫ ׀‬и ‫׀‬ш‫ ׀‬различаются при всех сочетаниях с гласными звуками по признаку 1.
2. Звуки ‫׀‬ц‫ ׀‬и ‫׀‬ч‫ ׀‬различаются при всех сочетаниях с гласными звуками по признаку 1.
Таким образом, признак 1 можно рассматривать как порог, в соответствии с
которым будет производиться классификация звуков речи.
Для разделения звуков ‫׀‬ш‫ ׀‬и ‫׀‬ч‫( ׀‬аналогично ‫׀‬с‫ ׀‬и ‫׀‬ц‫ )׀‬используется метод
максимумов с применением сглаживающего фильтра в сочетании с алгоритмом
DTW [3-4].
Выводы
Новизна. В данной работе с помощью метода максимумов проведен
количественный анализ шумных глухих щелевых и смычно-щелевых звуков с целью
выделения наиболее характерных признаков, играющих роль порога при
распознавании речи. На основании двух методов максимумов была предложена
схема классификации звуков.
Практическое значение. Основные положения данной работы предназначены
для реализации в интеллектуальных системах управления, в которых команды
поступают на естественном языке.
312
«Искусственный интеллект» 3’2005
Количественный анализ шумных глухих щелевых и смычно-щелевых звуков
4Ф
Литература
1.
2.
3.
4.
5.
6.
Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. – М.: Радио и связь, 1981. – 496 с.
Дорохин О.А., Засыпкин А.В., Червин Н.А., Шелепов В.Ю. О некоторых подходах к проблеме
компьютерного распознавания устной речи // Труды Междунар. конф. «Знание-Диалог-Решение»
(KDS 97). – Т. 1. – Ялта. – 1997. – C. 234-240.
Rabiner L.R., Jang B.H. Fundamentals of speech recognition. – New Jersey: Prentice Hall PTR,
Englewood Cliffs, 1993. – P. 507.
Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов. – К.: Наук. думка, 1987. – 261 с.
Современный русский язык: Учеб. для филол. спец. высших учебных заведений / Под ред.
В.А. Белошапковой. – М.: Азбуковник, 1997. – 928 с.
Федоров Е.Е., Шевцова И.А. Численное исследование шипящих согласных звуков //
Искусственный интеллект. – 2004. – № 4. – С. 661-665.
Є.Є. Федоров, І.О. Шевцова
Кількісний аналіз шумних глухих щілинних і зімкнено-щілинних звуків
При створенні систем розпізнавання мови важливу роль відіграє вибір ознак, на основі яких
формуються еталони звуків мови. Для рішення цієї задачі в статті за допомогою методів максимумів
проведений кількісний аналіз шумних глухих щілинних і зімкнено-щілинних звуків.
U. Fedorov, I. Shevtsova
Quantification Noisy Unvoiced Fricative and Occlusive-Fricative Sounds
At creation of systems of speech recognition the relevant role is played by selection of features, on the basis
of which one the measurement standards of sounds of speech are reshaped. For the solution of this problem
in the article with the help of methods of maxims the quantification noisy unvoiced fricative and occlusivefricative sounds is conducted
Статья поступила в редакцию 04.07.2005.
«Штучний інтелект» 3’2005
313
Скачать