ana

реклама
Лекция 5.
Графематический анализ.
Лингвистическая разметка.
Параллельные корпусы.
В.П. Захаров
Санкт-Петербургский
государственный университет
Графематический анализ (1)
Разделение входного текста на элементы (слова,
разделители и т.д.);
2. удаление нетекстовых элементов;
3. выделение и оформление нестандартных
(нелексических) элементов, например:
1.
 элементов форматирования – жирность, курсивность,
подчёркивание;
 структурных элементов текста – заголовков, абзацев,
примечаний;
 различных элементов текста, не являющихся словами
(числа, даты в цифровых форматах, буквенно-цифровые
комплексы, и т.п.);
 имен (имя, отчество), написанных инициалами;
 иностранных лексем, записанных латиницей;
 и т.д.
Лекция 5
Корпусная лингвистика
2
Графематический анализ (2)
Cложности:
обработка дефиса и пробела;
 выделение составных предлогов,
устойчивых оборотов, аналитических
форм и др.;
 иноязычные фрагменты;
 нетекстовые элементы.
Лекция 5
Корпусная лингвистика
3
Графематический анализ (3)
1.

Межсловный дефис:
объединительная функция (буква)?
кто-то, где-нибудь, давным-давно, бакш-таг, брейд-вымпел,
генерал-аншеф
или

разделительная функция (знак препинания)?
старик-художник, словарь-справочник, девочка-пионерка
2.

Пробел:
объединительная функция (буква)?
сто двадцать пять
или

разделительная функция?
русский язык
Лекция 5
Корпусная лингвистика
4
Графематический анализ (4)
Примерный перечень элементов текста, требующих специальной
обработки
Названия
Сами
рисунков
рисунки
Адрес
докладчика/унив-та
Тезисы
докладов отдельным файлом
Примечания
Перечисления
Страницы
Текст
списком
Зачеркивания
Слова
типа «рак1», «рак2», Nкластеры
Титульные
Таблицы
Списки
форзаца
листы
литературы
Цифры
Формат
Римские
цифры
Иностр.
язык в тексте
Рус.
Адреса,
ссылки, гиперссылки
Формулы
Сокращения,
Пример
Лекция 5
аббревиатуры
поиска
в тексте
яз. в иностранном тексте
Значки
для формул
Схемы
Корпусная лингвистика
5
Лингвистическая разметка

морфологическая разметка
синтаксическая разметка
семантическая разметка
анафорическая разметка
просодическая разметка

и т.д.




Лекция 5
Корпусная лингвистика
6
Принципы разметки
 Описание
(обоснование) схемы разметки
 Общепринятая система лингвистических
понятий
 Известная для пользователя схема
анализа
 Мотивированность введения параметров
 Теоретически нейтральная
(традиционная) схема разметки
Лекция 5
Корпусная лингвистика
7
Морфологическая разметка
Синонимы:
part-of-speech tagging (POS-tagging),
частеречная разметка.
Элементы данных морфологической
разметки включают:
лемму;
признак части речи;
признаки грамматических категорий.
Лекция 5
Корпусная лингвистика
8
Морфологическая разметка: граммемы
(на основе системы ДИАЛИНГ) (1)
Attributes "pos" of the tag <ana>
С - существительное,
П - прилагательное,
Г - глагол в личной форме,
ПРИЧАСТИЕ - причастие ;
ДЕЕПРИЧАСТИЕ –
деепричастие,
ИНФИНИТИВ – инфинитив,
МС - местоимениесуществительное,
МС-П - местоименное
прилагательное ,
МС-ПРЕДК - местоимениепредикатив ,
ЧИСЛ - числительное
(количественное),
ЧИСЛ-П - порядковое
числительное,
Лекция 5
Attributes "gram" of the tag <ana>
мр, жр, ср - мужской, женский, средний
род;
од, но - одушевленность,
неодушевленность;
ед, мн - единственное, множественное
число;
им, рд, дт, вн, тв, пр, зв - падежи:
именительный, родительный, дательный,
винительный, творительный, предложный,
звательный;
2 - второй родительный или второй
предложный падежи;
св, нс - совершенный, несовершенный вид;
пе, нп - переходный, непереходный глагол;
дст, стр - действительный, страдательный
залог;
нст, прш, буд - настоящее, прошедшее,
будущее время;
Корпусная лингвистика
9
Морфологическая разметка: граммемы
(на основе системы ДИАЛИНГ) (2)
Attributes "pos" of the tag <ana>
Attributes "gram" of the tag <ana>
Н - наречие,
ПРЕДК - предикатив,
ПРЕДЛ - предлог,
СОЮЗ - союз,
МЕЖД - междометие,
ЧАСТ - частица,
ВВОДН - вводное слово,
дфст - слово обычно не имеет
множественного числа,
опч - частая опечатка или ошибка,
жарг, арх, проф - жаргонизм,
архаизм, профессионализм,
аббр – аббревиатура,
пвл - повелительная форма глагола;
1л, 2л, 3л - первое, второе, третье
лицо;
0 - неизменяемое.
кр - краткость (для прилагательных и
причастий).
сравн - сравнительная форма (для
прилагательных).
имя, фам, отч - имя, фамилия,
отчество.
лок, орг - локативность, организация.
кач - качественное прилагательное.
вопр, относ - вопросительность и
относительность (для наречий).
безл - безличный глагол.
Лекция 5
Корпусная лингвистика
10
Пример морфологической разметки
(на основе системы ДИАЛИНГ)
<?xml version="1.0" encoding="windows-1251" ?> <text> <p>
<s>
<w>Звонили<ana lemma="ЗВОНИТЬ" pos="Г" gram="мн,нс,нп,дст,прш,"
/></w>
<w>к<ana lemma="К" pos="ПРЕДЛ" gram="" /></w>
<w>вечерне
<ana lemma="ВЕЧЕРНЯ" pos="С" gram="жр,ед,дт,пр,но," />
<ana lemma="ВЕЧЕРНИЙ" pos="П" gram="ср,ед,кр," /></w>
<pun>.</pun> </s>
<s><w>Торжественный<ana lemma="ТОРЖЕСТВЕННЫЙ" pos="П"
gram="мр,ед,им,вн," /></w>
<w>гул<ana lemma="ГУЛ" pos="С" gram="мр,ед,им,вн,но," /></w>
<w>колоколов
<ana lemma="КОЛОКОЛ" pos="С" gram="мр,мн,рд,но," />
<ana lemma="КОЛОКОЛОВ" pos="С" gram="мр,фам,ед,им,од," /></w>
……………………..<pun>.</pun> </s></p></text>
Лекция 5
Корпусная лингвистика
11
Проблемы морфоанализа и
морфоразметки
►
анализ слов с дефисом:
►
нераспознавание многих имен собственных, особенно
иностранных;
нераспознавание прилагательных и существительных,
образованных от имен собственных:
архимедов, ахиллов, дантов, гулливеров, горациев, марфенькин;
неразпознование аббревиатур и сокращений:
г., гг., фр., д., 20 авг.<уста>, англ.;
сложные слова различных типов:
►
►
►
►
кто-нибудь, по видимому, велико светский, полу бог);
односложный, двухэтажный, трехдневный,, четырехлетний,
полуотворенный, полсотни, бледночернильный, многообещавший,
благорожденный;
словообразовательные дериваты, в том числе многочисленные
уменьшительно-ласкательные и уменьшительно-пренебрежительные
образования:
ангельчик, армячишка, барельефчик, кресельца, панталончики,
сертучишка, цветничок.
Лекция 5
Корпусная лингвистика
12
Синтаксическая разметка
 фиксация
синтаксических связей
 приписывание синтаксическим единицам
соответствующих характеристик:
• тип предложения
• синтаксическая функция
• член предложения
• и т.п.
Лекция 5
Корпусная лингвистика
13
Сложности синтаксической разметки:
разнообразие синтаксических теорий и
формализмов:







грамматика зависимостей;
грамматика непосредственно-составляющих;
грамматика структурных схем;
традиционные синтаксические учения о членах
предложения;
функциональная грамматика;
семантический синтаксис;
и др.
Лекция 5
Корпусная лингвистика
14
Пример синтаксического разбора
(грамматика зависимостей, система ЭТАП-3)
Long ago, in the city of Babylon, the people began to
build a huge tower which seemed to reach the heavens soon.
Лекция 5
Корпусная лингвистика
15
Пример синтаксического разбора
Лекция 5
Корпусная лингвистика
16
Семантическая разметка
 Значения
слов
 Разрешение омонимии и синонимии
 Категоризация слов (разряды)
 Тематические классы
 Признаки каузативности
 Оценки
 Деривационные характеристики
 И т.д.
Лекция 5
Корпусная лингвистика
17
Семантическая разметка в Национальном
корпусе русского языка
Три группы помет:
 разряд
• имя собственное
• возвратное местоимение
• и т.д.

лексико-семантические характеристики:
• таксономия (тематический класс лексемы) — для имен
•
•
•
•
•
Лекция 5
существительных, прилагательных, глаголов и наречий;
мереология (указание на отношения «часть — целое», «элемент —
множество») — для предметных и непредметных имен;
топология (топологический статус обозначаемого объекта) — для
предметных имен;
каузация — для глаголов;
служебный статус — для глаголов;
оценка — для предметных и непредметных имен, прилагательных и
наречий.
Корпусная лингвистика
18
Семантическая разметка в Национальном
корпусе русского языка (2)

деривационные характеристики
• Собственно лексико-семантические пометы сгруппированы по
•
•
•
•
•
следующим полям:
Словообразовательные характеристики включают несколько
типов:
морфо-семантические словообразовательные признаки
(например, «диминутив», «каритив», «семельфактив»);
разряд производящего слова (например, отглагольное
существительное или отадъективное наречие);
лексико-семантический (таксономический) тип производящего
слова (например, наречие, образованное от прилагательного
размера);
морфологический тип словообразования (субстантивация,
сложное слово).
Более подробно см. ruscorpora.ru  Семантика в корпусе
Лекция 5
Корпусная лингвистика
19
Пользователи параллельных
корпусов:
1) переводчики-практики;
2) лексикографы;
3) разработчики систем машинного перевода и
лексиконов к ним;
4) разработчиков систем переводческой памяти
(типа Trados Workbench и Star Transit);
5) лингвисты, в т.ч. компаративисты, лексикологи,
переводоведы, а также ипользуются
литературоведами, социологами и
культурологами как незаменимый источник
эмпирической информации;
6) преподаватели и студенты – источник образцов
перевода и языковых примеров.
Лекция 5
Корпусная лингвистика
20
Пример русско-словацкого
параллельного корпуса
4229
Пера , правда , не было .
18006
" - и сам , правда сделав над собою A veru som voči Kňaževičovi pocítil
очень большое усилие , уставился в akúsi neurčitú mrzutosť .
ответ в глаза человеку .
39893
Не правда ли ?
Je to správne ?
54998
Я , правда , не зная этого баритона
, могу сказать , что лучше всех
подносил букет сам Иван
Васильевич .
Ja som toho barytonistu ,
pravdaže , nepoznal , ale môžem
povedať , že najlepšie podával
kyticu sám Ivan Vasilievič .
67987
" Бог с ней , - размышляла Джесси ,
- она правда несчастна до
содрогания , потому что с такой
страстью погрузилась в свое
уродство , хотя я к ней привыкла и
ничего особенного не нахожу .
Лекция 5
Pravda , pero na ňom chýbalo .
Prikázala len , aby jej oznámili ,
keď si sestra sadne do auta . „ Boh
ju sprevádzaj , " rozmýšľala Jessie
. „ Je naozaj strašne nešťastná ,
lebo sa náramne pohrúžila do
svojej škaredosti , hoci ja som si
na ňu navykla a nič zvláštne na nej
nevidím .
Корпусная лингвистика
21
Скачать