Корпус

реклама
Интернет как фабрика корпусов
О лингвистике индивидуальных
и групповых различий
и ее инструментах
Владимир Павлович Селегей
Компьютерная лингвистика РГГУ
Лингвистические технологии ABBYY
8 июля 2011
Ориентирующие вопросы:
Что такое текстовый корпус?
 Чем корпус отличается от просто
множества текстов?
 Имеет ли кто-нибудь опыт работы с
корпусами (например, с НКРЯ)?
 Что делает корпус хорошим?
 Что означает слово «национальный» в
названии корпуса?

Летняя лингвистическая школа 2012
Определения
Корпус — это информационносправочная система, основанная на
собрании текстов на некотором языке
в электронной форме
Определение создателей Национального корпуса
Русского Языка (НКРЯ): http://www.ruscorpora.ru/.
Летняя лингвистическая школа 2012
Что содержит корпус X?

Корпусом Х языка Y может называться собрание текстов с
явно указанными принципами отбора объектов X
(позволяющими в идеале оценить соответствие замысла и
исполнения по некоторым критериям).






Например:
корпус детских рассказов о сновидениях;
параллельный русско-немецкий корпус текстов переводов
романа «Идиот»;
корпус региональных СМИ России (Интегрум, Медиалогия);
Параллельный корпус документов Европарламента Europarl
(на всех языках Евросоюза);
корпус текстовых расшифровок переговоров шоферовдальнобойщиков на трассе Москва-Ростов летом 2011 г.
Летняя лингвистическая школа 2012
Зачем понадобились корпуса




Современная лингвистика и лексикография являются
корпусными: именно корпуса текстов являются сегодня
важнейшим или даже единственным источником надежных
сведений о живом языке (включая частотные).
Колоссальная динамика языковых изменений, невозможность
их охватить методами интроспекции (самонаблюдения) и
традиционного лексикографического описания (картотеки).
Разочарование в традиционной лексикографии:
дистрибуционная, pattern-based лексическая семантика,
грамматика конструкций (Ch. Fillmore).
Современная компьютерная лингвистика нуждается в
огромных массивах неслучайно подобранных текстов для
задач машинного обучения и автоматического извлечения
лингвистических знаний (следствие разочарования в ручных
методах описания языка).
Летняя лингвистическая школа 2012
Корпус как язык



Предполагается возможность создания
универсальных корпусов языка L, которые
содержали бы языковой материал, адекватный (по
замыслу создателей) для любых
исследовательских лингво-лексикографических
задач.
«Национальный корпус Русского Языка
представляет данный язык на определенном этапе
(или этапах) его существования и во всём
многообразии жанров, стилей, территориальных
и социальных вариантов и т. п.» (из авторского
описания НКРЯ).
Гипотеза: Национальный корпус языка L и есть
универсальный корпус языка L.
Летняя лингвистическая школа 2012
Разметка корпуса



Разметка (аннотирование) корпуса дает возможность
отвечать на содержательные вопросы о собранных в корпусе
текстах (например, верно ли, что женщины реже употребляют
в письмах местоимение «мой»).
Лингвистическая разметка: возможность определения
грамматических значений и снятия омонимии (например, мой
– мыть, для - длить)
Метатекстовая разметка:





жанры, функциональные стили, регистры, etc.
предметная область, тема
социолингвистические параметры: пол, возраст, социальная
группа
лингвогеография
время создания
Летняя лингвистическая школа 2012
Лингвистическая разметка







Лексический анализ (композиты, китайский
язык)
Определение части речи (POS-tagging)
Лемматизация (определение словарной
формы слова)
Определение синтаксической структуры
Снятие лексической неоднозначности (WSD
- Word Sense Disambiguation)
Определение семантической структуры
Определение риторической структуры
текста
Летняя лингвистическая школа 2012
Текстовые типы в НКРЯ («художка»)

Жанры:










детектив, боевик
детская
документальная проза
драматургия
историческая проза
любовная история
нежанровая проза
приключения
фантастика
юмор и сатира
Летняя лингвистическая школа 2012
Текстовые типы в НКРЯ (“нехудожка”)

Сфера функционирования:
бытовая
 официально-деловая
 производственно-техническая
 публицистика
 реклама
 учебно-научная
 церковно-богословская
 электронная коммуникация

Летняя лингвистическая школа 2012
Текстовые типы в НКРЯ («нехудожка»)
Тематика
 администрация и управление
 армия и вооруженные конфликты
 астрология, парапсихология и эзотерика
 астрология, парапсихология, эзотерика
 астрономия
 бизнес, коммерция, экономика, финансы
 ....
 спорт
 частная жизнь
 экономика
 электроника
 энергетика
Летняя лингвистическая школа 2012
«Китайская» классификация животных по
Хорхе Луи Борхесу
Животные делятся на:
 принадлежащих Императору,
 набальзамированных,
 прирученных,
 молочных поросят,
 сирен,
 сказочных,
 бродячих собак,
 включённых в эту классификацию,
 бегающих как сумасшедшие,
 бесчисленных,
 нарисованных тончайшей кистью из верблюжьей шерсти,
 прочих,
 разбивших цветочную вазу,
 похожих издали на мух.
Летняя лингвистическая школа 2012
Уточненное определение:
Корпусом Х языка L называется собрание текстов:
 с явно указанными принципами отбора объектов X
и исследовательской задачей;
 с надежной (!) метатекстовой разметкой;
 с лингвистической разметкой: снятая омонимия
языка L на максимально возможном глубоком
уровне: морфология, синтаксис, лексика;
 с технологиями быстрого доступа к содержимому
на основании языка запросов и получения
надежных статистических данных.
Летняя лингвистическая школа 2012
Универсальные корпуса: типология

Замкнутые корпуса (American National Corpus,
BNC, Russian National Corpus, Europarl, Prague
Dependency Treebank, National Corpus of Polish.):
 Собраны вручную
 Размечены вручную (частично)
 Объем – сотни миллионов слов, сотни тысяч
документов

Открытые корпуса: Internet + Search Engine
N (Google, Yandex, Yahoo etc.):



Собраны программами-краулерами (червями)
Не размечены (частичная метаразметка блогов)
Объем: миллиарды документов
Летняя лингвистическая школа 2012
Замкнутые корпуса: pro et contra
Достоинства:




Наличие метатекстовой и частичной лингвистической
разметки.
Надежность поиска и статистической оценки.
Возможность искать по любым параметрам разметки
Возможность использования разметки для машинного
обучения систем автоматического анализа текстов.
Недостатки:




Типологическая неполнота и несбалансированность.
Случайность в отборе текстов.
Малый объем (особенно размеченной части)
Низкая оперативность (отстают от жизни)
Летняя лингвистическая школа 2012
Задачи, для которых замкнутые
корпуса малопригодны:








Изучение «нелогизмов»
Лексикосемантические и сильно лексикализованные синтаксические
явления на языковой периферии (терминология, общая лексика за
пределами частотного словаря в 30-40 тыс. слов).
Исследование динамики языковых изменений для неядерной
лексики.
Социальная и региональная дифференциальная лексикография.
(=>) Фиксация и мониторинг языковой нормы.
Сравнительные исследования текстов разных жанров.
Объекты актуального паремийного фонда (скрытые цитаты);
Распределение конкурирующих способов выражения (включая
явления в грамматике и фразеологии: щенячий/телячий восторг).
«Принято считать, что корпуса позволяют решать любые
лингвистические проблемы. Что касается грамматики, это может
быть правдой, если же мы занимаемся описанием Лексикона,
результаты часто оказываются довольно поверхностными» (В.И.
Беликов. ).
Летняя лингвистическая школа 2012
Примеры
Изменения в значении и модели управления
глагола «согласовать»:


В НКРЯ среди сотен примеров находятся только:




Мэрия согласовала нам маршрут движения…
Данная ситуация может произойти в связи с тем, что
Минобороны может вовремя не согласовать
оператору частотные присвоения…
Правительство согласовало нам инвестиционную
программу в объеме 124 млрд. рублей…
Такое число не позволяет сделать какие-либо
выводы (сопоставимо с «шумом»).
Летняя лингвистическая школа 2012
Какое слово имеет такое временное распределение?
Летняя лингвистическая школа 2012
Слово «виртуальный» в НКРЯ

Для определения мгновенного
движения системы нужно знать все
перемещения, которые система может
действительно принять в течение
промежутка dt. Такие перемещения
называются виртуальными, или
возможными
М. В. Остроградский. Мемуар о
мгновенных перемещениях систем,
подчиненных переменным условиям (1838)
Летняя лингвистическая школа 2012
Множественность нормы. Корпус и норма





До появления корпусов не было возможности объективно
исследовать употребление и выявлять норму. Поэтому и
кодификация была субъективной.
Однако отождествление замкнутых универсальных корпусов
(например, НКРЯ) с «нормой языка» требует весьма существенных
оговорок:
Текстовое пространство сегментировано, и каждый сегмент,
социальный или географический, имеет свою норму.
Различие профессиональной и общей нормы (ярко проявляется,
например, в именовании общеизвестных биологических объектов:
красная рыба, камыш и т.п.)
Региональная норма. Еще пример: ФНС и кассовые аппараты.
Запрос о непробитых / невыбитых чеках по делам, рассмотренным
в Арбитражном суде Свердловской и Пермской области, даст не
более 20% релевантных документов, поскольку в остальных речь
будет идти о неотбитых чеках.
Летняя лингвистическая школа 2012
Еще о региональной норме
В уголовном деле должны быть подлинники документов, если это
факсимильный документ, то следователь его должен
отсветить и заверить…. (Благовещенск)
 По словам члена комитета Сейма по просвещению, науке и
культуре Яна Минцевича, ученики вынуждены отсвечивать на
ксероксе учебник по геометрии для 8-9 классов, который был
издан в 1994 году (Литовский курьер; 23.09.1999)
 Какая-то поганка постоянно утаскивает зелёную папку со
статьями для экзамена, которую преподавательница наивно
оставляет для отсветки на кафедре (diary.ru, Литва);
 Группа делится примерно на три лагеря: 1. ребята, которые
посещают все лекции и семинары, имеют все конспекты и
отсветки пребывает в состоянии войны с третьей групировкой
[нерегулярно посещающими занятия] (livejournal.com, Литва).

Летняя лингвистическая школа 2012
Увы, не найдено в НКРЯ
«Корпусная лингвистика»,
 “До <N> раз + <сравн. cт. нар>.”:

Стандартно скидки делаются 30-50%, на
отдельные вещи может быть специальная цена,
до десяти раз меньше первоначальной.

Демотиватор:
Подведены итоги конкурса на лучший
демотиватор на тему безопасности дорожного
движения.
Летняя лингвистическая школа 2012
Летняя лингвистическая школа 2012
Жизнь, корпус и словарь











Какой из 3 вариантов вы бы использовали:
переадресование; переадресовка; переадресация?
Словарь (БАС, БТС).
Основное слово: переадресование.
На него ссылается: переадресовка
Отсутствует вовсе: переадресация
Корпус :
НКРЯ 20 век:
НКРЯ 21 век:
Журнальный зал:
Самиздат:
Блогосфера
(1-7.11.2011 г)
1/ 8 /2
0/ 4 /8
1 / 17 / 18
2 / 35 /120
0 / 6 / 600
Летняя лингвистическая школа 2012
Тенденция, однако…




Замкнутые «ручные» корпуса непригодны именно там, где
происходят языковые изменения. При том, что темпы этих
изменений возрастают (префигуративный характер освоения
неологизмов!)
Как следствие – растет число прямых лингвистических
запросов к Интернету посредством поисковых машин типа
Яндекса, Google, Yahoo, etc
Новое понятие: гугление/гуглить (угадайте, сколько в
НКРЯ?)
Удар со стороны компьютерной лингвистики: наиболее
заметные сегодня системы типа Google Translator и IBM
Watson обучаются на неразмеченных ресурсах Интернета
(включая Wikipedia), вовсе не используя замкнутые корпуса.
Летняя лингвистическая школа 2012
Открытые корпуса: pro et contra
Достоинства:
 Абсолютная представительность, потенциально идеальный
источник для нужд дифференциальной лингвистики
 Огромный объем (достижима синхронная полнота)
 Абсолютная оперативность
Недостатки:
Отсутствие хотя бы частичной лингвистической разметки.
Непоследовательность и ограниченность метатекстовой разметки
Ненадежность механизмов поиска и выдаваемой статистики.
Наличие документов-паразитов (спам, не-тексты, дублеты).
 Сложная модель страницы (полезный текст перемешан с
«обвязкой»)
 Главное: логика бизнес-процесса интернет-поисковиков абсолютно
ортогональна логике лингвистического исследования
(информационный и прежде всего «покупательский» поиск).




Летняя лингвистическая школа 2012
Ненадежность выдаваемой статистики




Надежность выдаваемых поисковиками цифр тем больше,
чем цифры – меньше. А полностью доверять можно только
тем цифрам, которые можно проверить полным просмотром
выдачи (обычно до 1000 единиц выдачи).
Неясность с единицей подсчета (Яндекс «Нашлось
42 тыс. ответов», Гугл «Результатов: примерно 143 000 000»
без указания единицы измерения)
К числовым результатам не применимы аксиомы
классической арифметики. Так, здесь часть вполне может
быть больше целого (уточняя запрос получаем больше
«результатов», чем для грубого запроса).
Имеет место нестабильность: результат меняется во
времени в произвольную сторону (не связанную с реальным
изменением числа релевантных объектов).
Летняя лингвистическая школа 2012
Отсутствие лингвистической разметки

Для поисковых машин не очень важна проблема снятия даже
морфологической неоднозначности:



При использовании поисковиков для лингвистического поиска:





пользователи быстро приучаются вводить необходимые фильтрующие
шум модификаторы.
системы поиска адаптируются к статистике запросов массовых
пользователей (торжество оптимизации).
исходный запрос ‘помятые брюки’ дает полностью равноправные
варианты:
«не помяв новые брюки»
«подшивая брюки, помните, что сзади они должны доходить до
каблука обуви»
Это вызывает серьезные проблемы для интерпретации статистики..
Для работы лингвистов корпус должен очевидным образом давать
возможность задавать в запросе грамматические значения,
пунктуацию, учет капитализации и прочее, к чему привыкли
пользователи закрытых корпусов.
Летняя лингвистическая школа 2012
История с географией



Различие в подходах хорошо заметно на примере с
географической атрибуцией интернет-страниц. В недавней
работе (Volkov, Serdyukov, 2012) описывается алгоритм,
применяемый в системе Яндекс.
Видно, что выбор параметров машинного обучения
ориентирован на событийную, а не языковую специфику. В
этом случае текст новосибирца о поездке в Москву будет
атрибутирован скорее всего как московский
Желающих адресуем к статье [В. И. Беликов. «Яндексрегионы: найдется всё, выдастся без разбору»] в
электронных материалах Диалога-2012.
Летняя лингвистическая школа 2012
Еще проблемы (повтор):




Проблема текстов-паразитов
Проблемы дублирования и скрытого цитирования
(должны быть ясны принципы, на которых
поисковик относит тексты к дублетам).
Неполнота и непоследовательность метатекстовой
разметки (скорее бонус, чем обязательный тип
информации).
Структурная неоднородность страниц:


Служебная и динамически обновляемая информация
Неоднороден и сам текст (например, текст автора и
комментарии к ним
Летняя лингвистическая школа 2012
Резюме

Замкнутые корпуса:





Малый объем (сотни тысяч документов, сотни
миллионов слов),
Отдаленность от текущей языковой ситуации
Точные методы поиска и сбора статистики
Наличие ручной (точной, но малой по объему)
метатекстовой и языковой разметки
Открытые корпуса


Неограниченный объем (миллиарды
документов)
Отсутствие точных методов поиска и
статистической оценки.
Летняя лингвистическая школа 2012
Интернет - фабрика корпусов
Есть две связанные причины, по которым неизбежно обращение
к Интернету:




Все растущая скорость языковых изменений, связанная, в
частности, с самим существованием письменной интернетсреды.
Региональная, социальная и профессиональная «сегментация»
языка, требующая дифференциального подхода к
анализируемым феноменам
Необходимо решить проблему нехватки адекватных
инструментов доступа и разметки Интернета, отказавшись от
прямого использования универсальных поисковиков.
Требуется решить задачу автоматического сбора корпусов
требуемого объема и состава на основании интернета и их
автоматической разметки (направление исследований Web as
a corpus”)
Летняя лингвистическая школа 2012
Проект Генерального Интернеткорпуса Русского Языка (ГИКРЯ)

Пролегомены к проекту Генерального
интернет-корпуса русского языка
(ГИКРЯ) В. И. Беликов, В. П. Селегей,
С. А. Шаров (РГГУ) Диалог 2012
Летняя лингвистическая школа 2012
Проект Генерального Интернеткорпуса Русского Языка (ГИКРЯ)






ГИКРЯ должен быть достаточен для задач дифференциальной
лингвистики. Поскольку речь не идет о задачах информационного
поиска, объем может быть меньше, чем объему Рунета. Тем не
менее, он должен быть на 2-3 порядка больше НКРЯ (ок. 100
миллиардов словоупотреблений).
ГИКРЯ должен представлять все существенные социальные,
жанровые, тематические сегменты Интернета и давать
статистически достоверную картину относительного
распространения текстов данного сегмента в сети.
ГИКРЯ должен постоянно обновляться (для целей обучения могут
фиксироваться некоторые его версии).
Должен обеспечиваться поиск и подсчет частот с учетом любых
параметров метатекстовой разметки.
Поиск должен обеспечиваться технологиями автоматической
лингвистической разметки, позволяющей искать и статистически
оценивать любые параметры языковых структур.
Корпус должен предоставлять возможность использовать для
динамической разметки альтернативные лингвистические модели.
Летняя лингвистическая школа 2012
Новые типы информации,
представляемые корпусом



Лингвистическая и метатекстовая разметка позволяют решать
задачи, которые сегодня еще не доступны исследователям,
работающим с корпусами. Приведем только 2 примера:
Переход в оценке от отдельных вхождений к числу страниц и
далее – документов, был очень важен. Но все же наиболее
надежная из всех видов статистики – авторская.
Возможности выявления фонетической специфики.
Использование поэтических и песенных сайтов (stihija.ru, stihirus.ru, rupoem.ru, pesni.net и т. п.) позволяет по размеру
делать наблюдения над ударением (можно доказать,
например, широкую распространенность «запрещаемого»
ударения пикóвый, — оно обычно для всех контекстов, кроме
пиковой дамы). По рифмам можно выявлять относительную
встречаемость [чн] / [шн] в словах типа скучно, булочная,
конечно. Много булошных и не ожидалось, но торжество
коне[ч]но удивило.
Летняя лингвистическая школа 2012
Открытые вопросы для
изучения
Переход к открытым исследовательским корпусам с автоматической разметкой
порождает новые важные вопросы :
 В какой степени корпуса, размеченные автоматически, пригодны для целей
лингвистики и лексикографии, и как следует оценивать качество их разметки.
Несомненно, что интегральная оценка качества более или менее адекватна
для компьютерно-лингвистических приложений (для информационного
поиска), но в случае исследовательских задач нельзя полагаться на средние
данные (что-то вроде средней температуры по больнице) и нужно применять
дифференцированные подходы к оценкам качества разметки с учетом
различных языковых явлений.
 Обоснование выбора языков разметки. Чем дальше мы продвигаемся от
морфологии и частных задач разрешения лексической неоднозначности
(основанных на каких-то канонических системах лексических значений типа
WordNet), тем больше возникает проблем, связаных с различием подходов к
описанию синтаксиса и семантики. Именно поэтому в современной
корпусной лингвистике давно уже принят подход, различающий физическую
разметку корпуса и его альтерантивные логические разметки.
 Большой размер универсального корпуса не во всех случаях является
благом. Необходимо изучать вопросы определения выделения
исследовательского подкорпуса – такого, на котором наиболее эффективно
проводить конкретное исследовавние
Летняя лингвистическая школа 2012
Главные цели проекта:



Создание инструмента как для теоретических, так и
для прикладных исследований
Создание рамочного проекта NLP-исследований, в
частности, для студентов, обучающихся по
специальности «компьютерная лингвистика»
Создание лингвистически и статистически
мотивированной системы признаков для
представления жанровых, тематических,
социальных и региональных различий (в частности
и для задач практической лексикографии)
Мы (проект ГИКРЯ на базе кафедры КоЛинг РГГУ)
приглашаем всех к участию!
Летняя лингвистическая школа 2012
Вопросы
Летняя лингвистическая школа 2012
Хороший корпус:
содержит языковые произведения всех
групп (параметризовано)
 для каждой однородной группы содержит их
в таком количестве, которое позволяет
делать достоверные статистические
выводы о том, как устроен их диалект.
 Как поженить (to marry) лингвистику и
статистику?




Как поженить рынок и госконтроль
Как поженить зону отдыха, хоз. постройки и террасу?
В корпусе 1 пример газетный
Летняя лингвистическая школа 2012
Дистрибуционная семантика
(геометрия значений)
Летняя лингвистическая школа 2012
Освоение новых понятий
Ма́ргарет Мид (Margaret Mead; 1901—
1978) американский антрополог. Выделила
три основных типа обмена знаний между
взрослыми и детьми:
 Постфигуративный — передача знаний от
взрослых к детям;
 Кофигуративный — получение детьми и
взрослыми знаний преимущественно от
своих сверстников;
 Префигуративный — передача знаний от
детей к взрослым.

Летняя лингвистическая школа 2012
Дифференциальная
лексикография



Региональная, социальная, жанрово-ориентированная
корпусная лексикография: идеи и реальность.
Кризис традиционных методов создания словарей (Wikiальтернатива).
Языки русских городов: проект, который не мог бы быть
реализован традиционными методами. Проект (www.lingvo.ru)
описания региональных различий на основании анализа
письменных источников (СМИ, блогосфера)


Характерный пример несовпадения описываемого с идиолектом
лексикографа
Объем словаря регионально нормативной лексики – около 3
тысяч словарных единиц с высокой частотой употребления.
Летняя лингвистическая школа 2012
Скачать