Опыт создания корпуса звучащей речи: зачем это нужно и как

реклама
Н. А. Коротаев
Центр лингвистической типологии
Опыт создания корпуса
звучащей речи:
зачем это нужно
и как этим заниматься?
1
Корпуса и устная речь
 Что такое корпус
 Реальные тексты
 Разметка
 Поиск
 Казалось бы, устная речь –
это идеальный объект корпусной
лингвистики
 Но в жизни всё «не совсем так»
2
Корпусных устных данных
меньше, чем письменных
Национальный корпус русского языка
Подкорпус
Словоупотреблений
Основной корпус
230 млн
Газетный подкорпус
173 млн
Устный подкорпус
11 млн
Мультимедийный
подкорпус
4 млн
3
Устный подкорпус НКРЯ
 Самый крупный корпусный ресурс
по изучению устной русской речи
 Доступна та же разметка,
что и для основного корпуса
 Не доступен исходный аудиосигнал
 Практически отсутствует
специальная «устная» разметка
4
Пример: конструкции с то
что
 «Рассказы о сновидениях»
◊ ∙∙(0.4) и когда я= ∙∙∙(0.6) с-сам
/\просыпаюсь,
◊ мне как бы /\кажется,
◊ ∙∙∙(0.6) то что й-я ∙∙(0.1) во /–\сне-е ещё.
 Устный подкорпус НКРЯ
•
Потом ещё… Люди говорят / то что эмо режут
вены и много плачут.
5
Пример: конструкции с то
что
 Устный подкорпус НКРЯ
•
•
•
Он боится то / что я скроюсь и не расплачусь с
ним и он будет выплачивать за меня деньги //
Почему ты считаешь то / что ты помнишь / а я
не помню.
Вот все говорят то / что российские шампуни
там дешевые.
Слеши в расшифровках
необязательно соответствуют
просодической реальности
6
Корпус звучащей речи
 Должен быть доступен
исходный звуковой сигнал
 Никакая разметка не может полностью
заменить звук; она только дополняет его
 Желательно иметь специальную
«устную» разметку:
 Сегментация
 Интонация
 Паузы
 .........
 Чем подробнее разметка,
тем меньше объем корпуса
7
Примеры корпусов
 МУРКО (http://ruscorpora.ru/searchmurco.html)
 есть аудио и видео («кликсты»)
 преимущественно фрагменты кинофильмов
 графическая запись – как в устном подкорпусе
НКРЯ
 Русскоязычный эмоциональный корпус
(http://www.harpia.ru/rec/)
 есть аудио и видео (файлы ELAN)
 нет открытого доступа
8
Примеры корпусов
 «Один речевой день»
(http://model.org.spbu.ru/)
 доступна демо-версия
 есть аудио (файлы ELAN)
 специальные правила графической записи
 Звуковой корпус говора Устьянского
района Архангельской области
(http://www.parasolcorpus.org/Pushkino/)
 есть аудио
 удобная выдача по поисковому запросу
 графическая запись – примерно как в НКРЯ
9
«Рассказы о сновидениях
и другие корпуса звучащей
речи»
 http://spokencorpora.ru/
 А. А. Кибрик, В. И. Подлесская
 Н. А. Коротаев, А. О. Литвиненко, …
 Монологические тексты нарративных
жанров:
 Рассказы о снах
 Истории из жизни
 Рассказы по картинкам
и пересказы тех же сюжетов по памяти
 В русской части:
 226 рассказов
 Чуть более 4 часов звучания
 Чуть более 30 тысяч словоупотреблений
10
Важные особенности
 Полные версии звуковых файлов
 Детальная система нотации
 Дискурсивная транскрипция
нескольких уровней подробности
 Система выравнивания
звука и транскрипта
 «Пошаговое» проигрывание
фрагментов рассказа
 Доступны для скачивания файлы
ELAN
 Система поиска (в разработке)
11
Дискурсивная
транскрипция
 Графическая запись, преимущественно
учитывающая локальную дискурсивную
структуру
 Две главные задачи:
 Редукция
 Интерпретация
 Ключевые характеристики:
 Систематичность
 Подробная инструкция по
транскрибированию
 Непредвзятость
12
отмечаемые
в «нашей» системе
транскрипции
 Сегментация речевого потока на




элементарные дискурсивные
единицы
• Разбиение транскриптов на строки
Сегментация на «предложения»
• Пунктуационные знаки в конце строк
Паузы
Акценты и движения тона
• Иконические слеши и стрелки
Речевые сбои
13
Элементарная дискурсивная
единица (ЭДЕ)
 Минимальный квант в порождении
речи
 Когнитивная перспектива
• «Фокус сознания» (У. Чейф)
 Физиологическая перспектива
• Координация с дыханием
 Просодико-коммуникативная перспектива
• Единый интонационный контур
• Стандартная роль в коммуникативной структуре
высказывания
 Семантико-синтаксическая перспектива
• Описание одной ситуации
• Синтаксический формат простой клаузы
(около 2/3 случаев)
14
Типология ЭДЕ
 Один из возможных параметров классификации
ЭДЕ – степень соответствия синтаксическому
формату простой клаузы
 Клаузальные («канонические») ЭДЕ
 «Малые» ЭДЕ
• Регуляторные (вот)
• Субклаузальные
• ....................
 «Большие» ЭДЕ
• Глагольные редупликации
• Контексты с грамматикализованными глаголами
речи или эпистемической оценки (кажется)
• ...................
15
Парцелляция / приращение
(тип субклаузальных ЭДЕ)
 Парцелляция - запланированное
разделение простой клаузы на две или
более ЭДЕ
 Приращение – постпозитивное
«присоединение» к уже произнесенной
клаузе непредикативного фрагмента
 В обоих случаях:
 Синтаксически вроде бы одна клауза
 Интонационно – две отдельных
коммуникативно-просодических
составляющих
 В «Рассказах о сновидениях» более 6%
ЭДЕ являются парцелляциями или
16
Интонационная разметка
 Основная разметка
 Расположение акцентов
(≈ фразовых / логических ударений)
 Движения тона на ударных
(а иногда – и заударных) слогах
акцентированных словоформ
 Дополнительная разметка
 Разметка в терминах ИК
(по Брызгуновой – Янко)
17
Интонация и
«предложение»
 «Предложение» последовательность ЭДЕ,
заключительная из которых
характеризуется иллокутивной
завершенностью
 «точка» - конец предложениясообщения
 «запятая» - не-конец предложения
 Канонические соответствия:
 «точка» - нисходящий акцент типа ИК1
18
 «запятая» - восходящий акцент типа
Осложнения картины
 Особые типы незавершенности
 «Открытый список» (ИК-6)
 «Рассказ по порядку» (ИК-4)
 Раздельное выражение
ремы и незавершенности
 Нефинальное падение
19
Нефинальные падения
 Наблюдается нисходящее движение тона

в главном акценте, но завершения
предложения не усматривается
Предположительно, основной критерий –
целевой уровень падения при
нисходящем акценте


Отличие от финального падения – в 2-4
полутона
Необходимо иметь «просодические портреты»
говорящих
20
Нефинальные падения
 «Рассказы о сновидениях»
«Точка с падением»
748
«Запятая с подъемом»
960
«Запятая с падением»
557
21
Акцентные схемы
в сложноподчиненных
конструкциях
 Какие движения тона реализуются в
главных акцентах ЭДЕ, составляющих
сложную конструкцию
 «Дефолтная» схема
◊ ’’(0.3) ∙∙(0.2) делаю такие /движения,
◊ которые /наяву я не \могу-у –де-елать,
 «Дезинтегрированная» схема
◊ ∙∙∙∙(1.4) Тогда ∙∙(0.1) мой /кома-андир /меня
/наградил /золот-той \меда-алью.
◊ ∙∙(0.3) Которая /стоил-ла /двести \долларов.
22
Акцентные схемы
в сложноподчиненных
конструкциях
 «Рассказы о сновидениях»
Дефолтна Дезинтегри Другие
я
-рованная схемы
Объектные 60%
26%
14%
Определи- 39%
тельные
45%
16%
Обстоятель 37%
-ственные
50%
13%
23
Разметка пауз
(временная разметка)
 Абсолютные паузы
 Заполненные паузы
 «эканья»
 «мэканья»
 гортанный скрип
 Смешанные паузы
 Паузы локализуются в звуковом файле
при помощи модуля Annotations в среде
Praat
 В этом же модуле размечаются и границы
ЭДЕ (и именно это позволяет
проигрывать отдельные строки
транскриптов на сайте)
24
Паузы и границы ЭДЕ
 «Рассказы о сновидениях»
Заполненные
Тип пауз
Абсол. Простые
Смеша
н.
Итог
о
Пограничны
е
2021
52
228
280
Внутренние
960
105
155
260
25
Пограничные паузы в
сложноподчиненных
конструкциях
 «Рассказы о сновидениях»
Ср.
знач.
Доля
нулевых
пауз
Доля пауз
от 0.5 с
Объекты (постпоз.) 0.14
74.7%
11.5%
Обстоятельства
(постпоз.)
0.20
66.0%
15.1%
Определения
(постпоз.)
0.24
55.8%
19.2%
Обстоятельства
(препоз.)
0.38
49.0%
28.6%
26
Речевые сбои
(самоисправления)
 Одна из ключевых особенностей
неподготовленной устной речи
 Степень «травматичности»
самоисправления
 «Слабый фальстарт»
•
Реализуя самоисправление, говорящий
«спасает» текущую ЭДЕ
 «Сильный фальстарт»
•
Реализуя самоисправление, говорящий
«бросает» текущую ЭДЕ и, возможно,
довольно значительно перестраивает
локальную структуру
27
Пример «слабого
фальстарта»
 «Весёлые истории из жизни»
◊ ∙∙∙ ’А /тётка−а —
◊ ∙∙ ээ ∙∙∙ которая ∙∙∙ эти \щи самые ∙∙∙
/кладёт,
◊ — ∙∙∙ не к= || не /кладёт мне в них
\сметану.
28
Пример «сильного
фальстарта»
 «Истории сибиряков о жизни»
◊ ээ Так \вот,
◊ когда мы ∙∙ всё это дело /проверили,
◊ ∙∙∙ ээ ночью−у ∙∙ /подготовили ∙∙ мм ээ ’’ всё
/открыли,
◊ ∙∙∙ но на всякий случай взяли ∙∙ с собой ==
◊ ∙∙∙ ээ \а!,
◊ \нет,
◊ эээ всё мы п= || ээ /открыли-/приготовили,
◊ ∙∙ и−и полезли —
◊ ∙∙ эээ уже на следующее /утро,
◊ ∙∙ эээ в /костюмах в парадных,
◊ ээ с /цветами,
◊ — ∙∙∙ ээ в соседний \подъезд.
29
Закономерность
 В целом менее травматичные
самоисправления встречаются
чаще, чем более травматичные
 Самый частотный тип
самоисправлений – это повтор
оборванного небольшого фрагмента
в начале или середине ЭДЕ (см.
пример со сметаной)
30
Другие размечаемые
явления
 Фазово-иллокутивные значения
• Не только «точки» и «запятые»
 Скобочные структуры («вставки»)
• Ускоренный темп
• Сниженный регистр
 Цитации
• Прямые vs. косвенные vs. полупрямые
 ..........
31
Файлы ELAN
 Доступны для скачивания и
дальнейшей оффлайн-работы
 Широко используемый формат для
аннотирования аудио- и
видеофайлов
 «Плоская» транскрипция
преобразуется в аналог базы
данных
 Встроенная система поиска
32
Поиск на сайте (в
разработке)
 Задача – использовать информацию,
уникальную для данных корпусов
 Основная единица поискового запроса –
ЭДЕ
 Можно задавать свойства в следующих
вкладах:




Тип ЭДЕ
Фазово-иллокутивное значение
Слова и паузы
Акценты
 Выдача по запросу будет производиться
в формате «звук + транскрипт»
33
Выводы
 Корпус звучащей речи должен иметь два
тесно связанных между собой
компонента:
 фрагменты / полные версии исходных
звуковых файлов
 транскрипты
 Разметка таких корпусов должна
учитывать базовые явления устной речи
 В зависимости от задач предполагаемых
исследований может выбираться разная
степень детальности разметки
 А соответственно, и разный реалистично
доступный объем корпуса
34
Выводы
 При любом уровне детализации
необходимо обеспечить
систематичность и непредвзятость
нотации
 Тогда, даже если корпус невелик,
при наличии «уникальной»
разметки с его помощью можно
получать значимые результаты
35
Скачать