Анатолий Владимирович Венцов, Юлия Олеговна Нигматулина, Ольга Васильевна Раева, Елена Игоревна Риехакайнен, Наталия Арсеньевна Слепокурова (СПбГУ) КОРПУС РУССКИХ СПОНТАННЫХ ТЕКСТОВ: СТРУКТУРА И ЕДИНИЦЫ Цель создания корпуса изучение особенностей сигнала, с которым слушающий сталкивается при восприятии речи в естественных условиях разработка возможных алгоритмов преобразования непрерывного речевого акустического сигнала в линейную последовательность лексических единиц ФУНКЦИОНАЛЬНАЯ МОДЕЛЬ ВОСПРИЯТИЯ РЕЧИ Виды аннотирования: - орфографическая расшифровка; - акустико-фонетическая транскрипция Общая информация - расшифровки теле- и радиопередач; - орфографическая минуты звучания; расшифровка: 224 - Орфографическая расшифровка + акустикофонетическая транскрипция: 90 минут звучания. Принципы транскрибирования Гласные /a/ /o/ /е/ /i/ /ı/ /u/ /ə/ Излишне долго произнесенные гласные Ударность гласного Символы (латиница) После или Между Перед между твердыми мягким мягкого(ими) a & a" o @ o" e E e" i i i Q Q u Y u" * * *" :: «+» в постпозиции Принципы транскрибирования Согласные /ʒ/ /ʦ/ /x/ /ʨ/ /ʃ/ /ɕ/ Мягкость согласных Символы (латиница) Звонкие и Глухие озвонченные Z c D x h C G S $ Z' ' Принципы транскрибирования Условное обозначение / маркер Описание (нрзб) неразборчиво произнесенное слово или фраза (ансмбл) одновременная речь нескольких дикторов pause глухая пауза inh вдох sigh вздох (gst) гортанная смычка или участки ларингализации (pXX) краткая пауза (ХХ -длительность в мс) Принципы транскрибирования Пример: pause 0,202 по [po+] 0,238 inh 0, 493 а-а причинам н-н-ну таким вот [ao pr'iCi+n*m n::u te"k'i+m v*t] 1,712 небесным, наверное, [n'ib'E+sn*m na"v'Erne::+] 1,214 Доступ к Корпусу Корпус русского литературного языка http://narusco.ru/ Раздел «Наши ресурсы» Создание конкорданса по текстам речевого корпуса Доступ к Корпусу Речевой корпус: - монологическое (спонтанные монологи); - дикторское (радиосводки Ю.Б. Левитана); - прочитанное; - диалоги. Доступ к Корпусу Доступ к Корпусу Частотный словарь словоформ русской спонтанной речи Количество уникальных строк 6651 Орфографическая расшифровка городу потом потом потом С/ф 3664 С/у 10488 Транскрипция Частотность [go+r*du] [patu+m] [pato+m] [p*tu+] 2 3 8 1 Граница между словами в корпусе устных текстов «Составные слова» = «сочетания эквивалентные слову» потому_что как_бы то_есть … и др. Венцов А.В., Грудева Е.В., Касевич В.Б., Ягунова Е.В. Идиомы в Национальном корпусе русского литературного языка // Международная конференция «Корпусная лингвистика–2004» Тезисы докладов (12-14 октября 2004 г., С.-Петербург). СПб, 2004. С. 17–18. Венцов А.В., Грудева Е.В. Частотный словарь словоформ русского языка (проект). Череповец, 2008. 204 с. Граница между словами в корпусе устных текстов то_есть [tQs’ / tısj] потому_что [gua+S / guáʃ] Граница между словами в корпусе устных текстов человека_общаться [C*lE+kap$a+c* / ʨəlɛ+kapɕa+ʦə] Стяжение – слияние двух смежных звуков, приводящее к возникновению одного. театр [t’&tr / tʲætr] ему_уже [Qimu+Z / ɨmu+ʒ] дети_оттуда [d’Et’&tuda / dʲε+tʲætuda] при своём_мнении [pr* sa+emn’E+n’i / prə sa+emnʲɛ+nʲi] Спектрограмма сочетания когда_он [kagda+ o+n] – стяжения не произошло Спектрограмма стяжения щи_ото [$&ta / ɕʲæta] (из словосочетания вещи_отождествлять [v'E+$&taZd'istl'&+t’ / vʲɛ+ɕætaʒdʲistlʲæ+tʲ]) стяжение Стяжения гласных и согласных в Корпусе русских спонтанных текстов Стяжения Количество гласных 310 Процент от общего числа проанализированных сочетаний V+V или C+C на стыке словоформ, % 55,5 согласных 106 74,1 Стяжения в спонтанной и прочитанной речи гласные всего сочетаний спонтанная (115 мин) стяжения согласные всего сочетаний стяжения 559 310 (55,5%) 143 106 (74,1%) прочитанная 303 (46 мин) 191 (63,0%) 39 38 (97,9%) Три вида единиц: • отдельные словоформы (я, четыре и т.д); • составные слова (то_есть, всё_равно и др.); • словоформы, подвергшиеся стяжению (что_он [Ston / ʃton], дайте_им [da+et’im / dáetjim] и др.) Перспективы • верификация созданной транскрипции; • дальнейшая фонетическая расшифровка записей; • пополнение общего объема корпуса, в том числе за счет привлечения записей подготовленной русской речи (дикторской речи, прочитанных текстов); • разработка более совершенной системы поиска. Спасибо за внимание!