Лекция 1. Введение в корпусную лингвистику В.П. Захаров Санкт-Петербургский государственный университет Понятие корпуса Лингвистический, или языковой, корпус текстов – большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач. Лекция 1 Корпусная лингвистика 2 Проанализируем Лекция 1 Большой Электронный Унифицированный Структурированный Размеченный Филологически компетентный Массив языковых данных Предназначенный для … Корпусная лингвистика 3 Словарные картотеки Лекция 1 Корпусная лингвистика 4 Электронные библиотеки и их разнообразие ► Корпус латинских текстов “Персей”. ► Корпус текстов Ф. М. Достоевского. ► Электронная энциклопедия "Брокгауз и Ефрон". ► Фундаментальная электронная библиотека. ► Российская виртуальная библиотека. ► Библиотека М. Мошкова. ► Электронная библиотека Химического фак-та МГУ. ► ………………………………………………………. ► и т.д. Лекция 1 Корпусная лингвистика 5 Корпус vs. электронная библиотека Тексты в корпусах рассматриваются прежде всего как образцы текстов. Тексты в электронных библиотеках, исходя из их назначения, правильнее всего называть произведениями со всеми характерными для них атрибутами. Лингвистический корпус текстов: Электронная библиотека: образцы текстов полные тексты лингвистическая разметка библиографические и историкокультурные элементы данных (если имеются) лингвостатистика отсутствие статистики репрезентативность языкового материала"условная" полнота текстов электронной библиотеки отбор языкового материала на основе отбор текстов, определяемый выбором критериев репрезентативности, составителей библиотеки лингвистической и историко-культурной значимости Лекция 1 Корпусная лингвистика 6 Лингвистические корпусы Brown Corpus. Ланкастерский корпус английского языка (LancasterOslo-Bergen Corpus, LOB). British National Corpus. International Corpus of English. Bank of English. Cobuild Corpus. Мангеймский корпус немецкого языка. Чешский национальный корпус. Уппсальский корпус русского языка. Национальный корпус русского языка. Корпусы китайского, турецкого, эстонского, албанского и многих других языков Лекция 1 Корпусная лингвистика 7 Корпусная лингвистика Корпусная лингвистика – раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с использованием компьютерных технологий. Лекция 1 Корпусная лингвистика 8 Корпус Собственно корпус (массив данных) + корпусный менеджер (специализированная поисковая система) Лекция 1 Корпусная лингвистика 9 Конкорданс Конкорданс – список всех употреблений данного слова в контексте (возможно, со ссылками на источник). Чешский национальный корпус: Поиск словоупотреблений слова holubí (голубиный). Лекция 1 Корпусная лингвистика 10 Предпосылки создания и использования корпусов Назначение языкового корпуса – показать функционирование лингвистических единиц в их естественной контекстной среде. На основе корпуса можно получить данные: о частоте словоформ, лексем, грамматических категорий, об изменениях частот об изменениях контекстов в различные периоды времени о поведении языковых единиц разных авторов о совместной встречаемости лексических единиц об особенностях их сочетаемости, управления и т.д. Лекция 1 Корпусная лингвистика 11 Репрезентативность Размеры и процентные соотношения: Жанры Стили Периоды Авторы Хронологические границы ………………………. Лекция 1 Корпусная лингвистика 12 Разметка Англ.: tagging, annotation. Разметка – приписывание текстам и их компонентам специальных меток. Виды разметки: экстралингвистическая (метаразметка) сведения об авторе и сведения о тексте: автор, название, год и место издания, жанр, тематика; структурная (глава, абзац, предложение, словоформа) собственно лингвистическая Лекция 1 Корпусная лингвистика 13 Лингвистическая разметка 1. морфологическая разметка part-of-speech tagging (POS-tagging) 2. 3. 4. 5. синтаксическая разметка семантическая разметка анафорическая разметка просодическая разметка и т.д. Лекция 1 Корпусная лингвистика 14 Типы корпусов Корпусы, относящиеся ко всему языку; корпусы, относящиеся к какому-либо подъязыку (жанр, стиль, язык определенной возрастной или социальной группы, язык писателя или ученого и т.п.). Существует большое число разных других типов корпусов. Можно выделить различные основания для классификации корпусов. Лекция 1 Корпусная лингвистика 15 Классификация корпусов Признак Типы корпусов Тип данных •Письменные Язык текстов •Русский «Параллельность» •Одноязычные •Двуязычные •Многоязычные «Литературность»,специфичность •Литературные •Диалектные •Разговорные •Терминологические •Смешанные Жанр •Литературные •Фольклорные •Драматургические •Публицистические Лекция 1 •Речевые •Смешанные •Английский Корпусная лингвистика и т.д. 16 Классификация корпусов (прод.) Признак Типы корпусов Доступность •Свободно доступные •Коммерческие •Закрытые Назначение •Исследовательские Динамичность •Динамические •Статические Разметка •Размеченные •Неразмеченные Характер разметки •Морфологические •Иллюстративные •Синтаксические •Семантические •Просодические и Объем текстов Лекция 1 (мониторные) т.д. •Полнотекстовые •«Фрагментнотекстовые» Корпусная лингвистика 17 Классификация корпусов (прод.) Признак Типы корпусов Хронологический аспект •Синхронические «Общность» •Общие Структура •Центральные Лекция 1 •Диахронические •Одного писателя и архивные •Ядерные и периферийные Корпусная лингвистика 18 Пользователи Прикладные лингвисты; лексикографы; лингвисты-теоретики; преподаватели; компьютерные лингвисты; другие специалисты по языку (литературоведы, редакторы); специалисты по общественным наукам (историки, социологи); корпусы как инструмент для разработки и настройки различных автоматизированных систем (машинный перевод, распознавание речи, информационный поиск). Лекция 1 Корпусная лингвистика 19