Н. А. Коротаев Центр лингвистической типологии Опыт создания корпуса звучащей речи: зачем это нужно и как этим заниматься? 1 Корпуса и устная речь Что такое корпус Реальные тексты Разметка Поиск Казалось бы, устная речь – это идеальный объект корпусной лингвистики Но в жизни всё «не совсем так» 2 Корпусных устных данных меньше, чем письменных Национальный корпус русского языка Подкорпус Словоупотреблений Основной корпус 230 млн Газетный подкорпус 173 млн Устный подкорпус 11 млн Мультимедийный подкорпус 4 млн 3 Устный подкорпус НКРЯ Самый крупный корпусный ресурс по изучению устной русской речи Доступна та же разметка, что и для основного корпуса Не доступен исходный аудиосигнал Практически отсутствует специальная «устная» разметка 4 Пример: конструкции с то что «Рассказы о сновидениях» ◊ ∙∙(0.4) и когда я= ∙∙∙(0.6) с-сам /\просыпаюсь, ◊ мне как бы /\кажется, ◊ ∙∙∙(0.6) то что й-я ∙∙(0.1) во /–\сне-е ещё. Устный подкорпус НКРЯ • Потом ещё… Люди говорят / то что эмо режут вены и много плачут. 5 Пример: конструкции с то что Устный подкорпус НКРЯ • • • Он боится то / что я скроюсь и не расплачусь с ним и он будет выплачивать за меня деньги // Почему ты считаешь то / что ты помнишь / а я не помню. Вот все говорят то / что российские шампуни там дешевые. Слеши в расшифровках необязательно соответствуют просодической реальности 6 Корпус звучащей речи Должен быть доступен исходный звуковой сигнал Никакая разметка не может полностью заменить звук; она только дополняет его Желательно иметь специальную «устную» разметку: Сегментация Интонация Паузы ......... Чем подробнее разметка, тем меньше объем корпуса 7 Примеры корпусов МУРКО (http://ruscorpora.ru/searchmurco.html) есть аудио и видео («кликсты») преимущественно фрагменты кинофильмов графическая запись – как в устном подкорпусе НКРЯ Русскоязычный эмоциональный корпус (http://www.harpia.ru/rec/) есть аудио и видео (файлы ELAN) нет открытого доступа 8 Примеры корпусов «Один речевой день» (http://model.org.spbu.ru/) доступна демо-версия есть аудио (файлы ELAN) специальные правила графической записи Звуковой корпус говора Устьянского района Архангельской области (http://www.parasolcorpus.org/Pushkino/) есть аудио удобная выдача по поисковому запросу графическая запись – примерно как в НКРЯ 9 «Рассказы о сновидениях и другие корпуса звучащей речи» http://spokencorpora.ru/ А. А. Кибрик, В. И. Подлесская Н. А. Коротаев, А. О. Литвиненко, … Монологические тексты нарративных жанров: Рассказы о снах Истории из жизни Рассказы по картинкам и пересказы тех же сюжетов по памяти В русской части: 226 рассказов Чуть более 4 часов звучания Чуть более 30 тысяч словоупотреблений 10 Важные особенности Полные версии звуковых файлов Детальная система нотации Дискурсивная транскрипция нескольких уровней подробности Система выравнивания звука и транскрипта «Пошаговое» проигрывание фрагментов рассказа Доступны для скачивания файлы ELAN Система поиска (в разработке) 11 Дискурсивная транскрипция Графическая запись, преимущественно учитывающая локальную дискурсивную структуру Две главные задачи: Редукция Интерпретация Ключевые характеристики: Систематичность Подробная инструкция по транскрибированию Непредвзятость 12 отмечаемые в «нашей» системе транскрипции Сегментация речевого потока на элементарные дискурсивные единицы • Разбиение транскриптов на строки Сегментация на «предложения» • Пунктуационные знаки в конце строк Паузы Акценты и движения тона • Иконические слеши и стрелки Речевые сбои 13 Элементарная дискурсивная единица (ЭДЕ) Минимальный квант в порождении речи Когнитивная перспектива • «Фокус сознания» (У. Чейф) Физиологическая перспектива • Координация с дыханием Просодико-коммуникативная перспектива • Единый интонационный контур • Стандартная роль в коммуникативной структуре высказывания Семантико-синтаксическая перспектива • Описание одной ситуации • Синтаксический формат простой клаузы (около 2/3 случаев) 14 Типология ЭДЕ Один из возможных параметров классификации ЭДЕ – степень соответствия синтаксическому формату простой клаузы Клаузальные («канонические») ЭДЕ «Малые» ЭДЕ • Регуляторные (вот) • Субклаузальные • .................... «Большие» ЭДЕ • Глагольные редупликации • Контексты с грамматикализованными глаголами речи или эпистемической оценки (кажется) • ................... 15 Парцелляция / приращение (тип субклаузальных ЭДЕ) Парцелляция - запланированное разделение простой клаузы на две или более ЭДЕ Приращение – постпозитивное «присоединение» к уже произнесенной клаузе непредикативного фрагмента В обоих случаях: Синтаксически вроде бы одна клауза Интонационно – две отдельных коммуникативно-просодических составляющих В «Рассказах о сновидениях» более 6% ЭДЕ являются парцелляциями или 16 Интонационная разметка Основная разметка Расположение акцентов (≈ фразовых / логических ударений) Движения тона на ударных (а иногда – и заударных) слогах акцентированных словоформ Дополнительная разметка Разметка в терминах ИК (по Брызгуновой – Янко) 17 Интонация и «предложение» «Предложение» последовательность ЭДЕ, заключительная из которых характеризуется иллокутивной завершенностью «точка» - конец предложениясообщения «запятая» - не-конец предложения Канонические соответствия: «точка» - нисходящий акцент типа ИК1 18 «запятая» - восходящий акцент типа Осложнения картины Особые типы незавершенности «Открытый список» (ИК-6) «Рассказ по порядку» (ИК-4) Раздельное выражение ремы и незавершенности Нефинальное падение 19 Нефинальные падения Наблюдается нисходящее движение тона в главном акценте, но завершения предложения не усматривается Предположительно, основной критерий – целевой уровень падения при нисходящем акценте Отличие от финального падения – в 2-4 полутона Необходимо иметь «просодические портреты» говорящих 20 Нефинальные падения «Рассказы о сновидениях» «Точка с падением» 748 «Запятая с подъемом» 960 «Запятая с падением» 557 21 Акцентные схемы в сложноподчиненных конструкциях Какие движения тона реализуются в главных акцентах ЭДЕ, составляющих сложную конструкцию «Дефолтная» схема ◊ ’’(0.3) ∙∙(0.2) делаю такие /движения, ◊ которые /наяву я не \могу-у –де-елать, «Дезинтегрированная» схема ◊ ∙∙∙∙(1.4) Тогда ∙∙(0.1) мой /кома-андир /меня /наградил /золот-той \меда-алью. ◊ ∙∙(0.3) Которая /стоил-ла /двести \долларов. 22 Акцентные схемы в сложноподчиненных конструкциях «Рассказы о сновидениях» Дефолтна Дезинтегри Другие я -рованная схемы Объектные 60% 26% 14% Определи- 39% тельные 45% 16% Обстоятель 37% -ственные 50% 13% 23 Разметка пауз (временная разметка) Абсолютные паузы Заполненные паузы «эканья» «мэканья» гортанный скрип Смешанные паузы Паузы локализуются в звуковом файле при помощи модуля Annotations в среде Praat В этом же модуле размечаются и границы ЭДЕ (и именно это позволяет проигрывать отдельные строки транскриптов на сайте) 24 Паузы и границы ЭДЕ «Рассказы о сновидениях» Заполненные Тип пауз Абсол. Простые Смеша н. Итог о Пограничны е 2021 52 228 280 Внутренние 960 105 155 260 25 Пограничные паузы в сложноподчиненных конструкциях «Рассказы о сновидениях» Ср. знач. Доля нулевых пауз Доля пауз от 0.5 с Объекты (постпоз.) 0.14 74.7% 11.5% Обстоятельства (постпоз.) 0.20 66.0% 15.1% Определения (постпоз.) 0.24 55.8% 19.2% Обстоятельства (препоз.) 0.38 49.0% 28.6% 26 Речевые сбои (самоисправления) Одна из ключевых особенностей неподготовленной устной речи Степень «травматичности» самоисправления «Слабый фальстарт» • Реализуя самоисправление, говорящий «спасает» текущую ЭДЕ «Сильный фальстарт» • Реализуя самоисправление, говорящий «бросает» текущую ЭДЕ и, возможно, довольно значительно перестраивает локальную структуру 27 Пример «слабого фальстарта» «Весёлые истории из жизни» ◊ ∙∙∙ ’А /тётка−а — ◊ ∙∙ ээ ∙∙∙ которая ∙∙∙ эти \щи самые ∙∙∙ /кладёт, ◊ — ∙∙∙ не к= || не /кладёт мне в них \сметану. 28 Пример «сильного фальстарта» «Истории сибиряков о жизни» ◊ ээ Так \вот, ◊ когда мы ∙∙ всё это дело /проверили, ◊ ∙∙∙ ээ ночью−у ∙∙ /подготовили ∙∙ мм ээ ’’ всё /открыли, ◊ ∙∙∙ но на всякий случай взяли ∙∙ с собой == ◊ ∙∙∙ ээ \а!, ◊ \нет, ◊ эээ всё мы п= || ээ /открыли-/приготовили, ◊ ∙∙ и−и полезли — ◊ ∙∙ эээ уже на следующее /утро, ◊ ∙∙ эээ в /костюмах в парадных, ◊ ээ с /цветами, ◊ — ∙∙∙ ээ в соседний \подъезд. 29 Закономерность В целом менее травматичные самоисправления встречаются чаще, чем более травматичные Самый частотный тип самоисправлений – это повтор оборванного небольшого фрагмента в начале или середине ЭДЕ (см. пример со сметаной) 30 Другие размечаемые явления Фазово-иллокутивные значения • Не только «точки» и «запятые» Скобочные структуры («вставки») • Ускоренный темп • Сниженный регистр Цитации • Прямые vs. косвенные vs. полупрямые .......... 31 Файлы ELAN Доступны для скачивания и дальнейшей оффлайн-работы Широко используемый формат для аннотирования аудио- и видеофайлов «Плоская» транскрипция преобразуется в аналог базы данных Встроенная система поиска 32 Поиск на сайте (в разработке) Задача – использовать информацию, уникальную для данных корпусов Основная единица поискового запроса – ЭДЕ Можно задавать свойства в следующих вкладах: Тип ЭДЕ Фазово-иллокутивное значение Слова и паузы Акценты Выдача по запросу будет производиться в формате «звук + транскрипт» 33 Выводы Корпус звучащей речи должен иметь два тесно связанных между собой компонента: фрагменты / полные версии исходных звуковых файлов транскрипты Разметка таких корпусов должна учитывать базовые явления устной речи В зависимости от задач предполагаемых исследований может выбираться разная степень детальности разметки А соответственно, и разный реалистично доступный объем корпуса 34 Выводы При любом уровне детализации необходимо обеспечить систематичность и непредвзятость нотации Тогда, даже если корпус невелик, при наличии «уникальной» разметки с его помощью можно получать значимые результаты 35