Требования к корпусу

реклама
Автоматическая
обработка текста
Лекция 2
Корпуса
5/7/2016
1
 Введение.
Обработка текста.
Этапы и разработка
 Корпуса: основные понятия
 Требования к корпусу
 Стандарты
 Разметка
5/7/2016
2
Автоматическая обработка текста.
Лингвистические платформы

графематический анализ
препроцессинг (очистка текста)
 токенизатор,
 сплиттер


морфологический анализ
нормализация (лемматизация, стемминг)
 частеречная разметка (POS-tagging)


синтаксический анализ
полный синтаксический анализ,
 chunking,
5/7/2016
 shallow parsing

3
Автоматическая обработка текста.
Лингвистический конвейер


??? семантический анализ
распознавание аргументной структуры






semantic role labeling
разрешение анафоры (anaphora resolution)
дискурсивный анализ (риторические
структуры)
распознавание именованных сущностей
извлечение фактов
классификация, кластеризация текстов
5/7/2016
4
Разработка модулей

обучение
 корпус текстов

обучающий корпус vs. тестовый корпус
 специальным образом
отобранные тексты
 размеченные под проблему
(аннотированные)
5/7/2016
5
Разработка: корпуса


Как собирать корпуса?
Как аннотировать корпуса?
специальные технологии сбора корпуса под
задачу
 vs. использование существующих экспертных
(эталонных) корпусов

5/7/2016
6
Разработка: корпуса
Золотой стандарт
Примеры:



5/7/2016
НКРЯ со снятой омонимией
Penn-Treebank
7
Корпус

Корпус – множество текстов,
 отобранных исходя из некоторых принципов,
 размеченных (аннотированных)
 в корпусе с помощью специальных программ можно
искать необходимые фрагменты текста по заданным
параметрам (например, множество текстов одного
жанра или автора, множество строчек или
предложений, в которых встретилось конкретное слово
или словосочетание, множество существительных в
родительном падеже и т.п.)
08.02.2008
8
Понятие корпуса
 Лингвистический, или языковой,
корпус текстов – большой, представленный в
электронном виде, унифицированный,
структурированный, размеченный,
филологически компетентный массив языковых
данных, предназначенный для решения
конкретных лингвистических задач.
08.02.2008
9
Основные единицы

Основной элемент хранения в корпусе:
текст (может быть полное произведение,
фрагмент произведения, одно
предложение и т.п.)
- насколько большой объем текстов
в данном корпусе, как измерять этот
объем, как сравнивать корпуса: в
количестве текстов, страниц и т.п.???
Возможный ответ:
В словах
08.02.2008
10
Но: что такое слово?
Что мы будем считать словом?

Сколько слов в предложении:
Ворон
к
ворону
Ворон ворону
08.02.2008
летит
кричит
11

Что такое слово? Что мы будем считать
словом?
словоупотребление
Лемма (множество
словоформ, сведенных к
одной исходной форме
(≈лексема))
08.02.2008
12
Основные единицы

Единицы хранения в корпусе – текст или
структурный элемент текста (требование
завершенности фрагмента)

Словоупотребление

Лемма (нормализованная форма)
5/7/2016
13
Лемма
древних
Является
для
08.02.2008
древние
=S,
мн,од=(род|вин|пр)|
древний
=A
=род,мн|вин,мн,од|пр,мн
являть
являться
Длить
Для
=V=непрош,ед,изъяв,3л,нсв,
страд
=V=непрош,ед,изъяв,3-л,нсв
=V,несов=непрош,деепр
=PR
14
 Основные
понятия
 Требования к корпусу
 Стандарты
 Разметка
 Типы корпусов
 Примеры корпусов
5/7/2016
15
Требования к корпусу
Репрезентативность
 Полнота
 Экономичность
 Структурированность
 Компьютерная поддержка

5/7/2016
16
Требования к корпусу:
Репрезентативность
способность корпуса текстов
отражать все свойства проблемной
области, релевантные для данного типа
лингвистических исследований,
в определенной пропорции,
определяемой частотой явления в
проблемной области.
–
5/7/2016
17
Требования к корпусу: Репрезентативность
Требование репрезентативности при
создании национального корпуса
Размеры и процентные соотношения:
 Жанры
 Стили
 Периоды
 Авторы
 Хронологические границы
……………………….
5/7/2016
18
Требования к корпусу: Репрезентативность
Требование репрезентативности при
создании национального корпуса

Всеобщий корпус, нацеленный на
пропорциональный охват языковой практики,
по анализам Д. Байбера, должен был бы
содержать приблизительно 90% разговоров
(обычной разговорной речи), 3% писем и
замечаний и 7% опубликованных и
неопубликованных текстов классических
стилей и жанров.
5/7/2016
19
Требования к корпусу: Репрезентативность
Требование репрезентативности при
создании национального корпуса

Обычно художественные тексты составляют в
национальных корпусах 20-40%
5/7/2016
20
Требования к корпусу: Репрезентативность
Требование репрезентативности при
создании национального корпуса

Если всеобщий национальный корпус составляется из
письменных текстов современного языка, при создании
проекта все же необходимо:

с хронологической точки зрения ограничить современный язык

с точки зрения репрезентативности определить, будут ли тексты
для корпуса подбираться на основе принципа адекватного
представления всех стилей и жанров (типов текстов)

или на основе адекватного размещения языковых явлений в
соответствующих текстах / целом корпусе
5/7/2016
21
Требования к корпусу: Репрезентативность
Требование репрезентативности при создании
национального корпуса

Культурно-репрезентативный корпус
От лингвистической работы часто требуется не языковой
пример, а хороший языковой пример, “освященный”
авторитетом сочинителя
 собрание культурно значимых
текстов
на данном языке
В практическом преломлении “культурная значимость”
потенциальным источником расхожих цитат текст
 признаётся принадлежащим данному слою, если он
вносит какой-то вклад в историю русского языка (в том
числе и интересен языковыми экспериментами).
5/7/2016
22
Требования к корпусу: Репрезентативность
Требование репрезентативности при
создании национального корпуса

культурная значимость не гарантирует “стандартности”
авторского языка.

От корпуса языка требуется соответствие узусу и
языковой компетенции его образованного носителя.
Между тем тексты таких авторов, как Зощенко,
Платонов или даже Гоголь изобилуют “авторскими
особенностями”

Отсюда задача: “стандартный”, “эталонный” корпус
русского языка; языка лишённого по возможности
сознательных стилевых и лексических экспериментов,
тем не менее “гладкого” и “профессионального”.
5/7/2016
23
Требования к корпусу: Репрезентативность
Требование репрезентативности при
создании исследовательского корпуса
Например,
проблема – корпус текстов по дискурсивным
словам русского языка
Ср. частота частицы же vs. типа
5/7/2016
24
Требования к корпусу:
Полнота
Полнота
В корпусе исследуемое явление должно
быть представлено во всей его полноте,
включая редкие случаи и отклонения от
нормы
NB: Полнота требует учета релевантных
явлений, даже если они очень редкие и не
попадают в корпус в соответствии с
требованием репрезентативности

5/7/2016
25
Требования к корпусу:
?? Экономичность


“Корпус должен экономить усилия
исследователя при изучении проблемной
области.
В частности, он должен быть не просто
строгим подмножеством проблемной
области, но, по возможности, существенно
отличаться от нее (меньше) по объему”
А.Н.Баранов. Введение в прикладную лингвистику. С.119.
5/7/2016
26
Требования к корпусу:
Структуризация
А.Н.Баранов. Введение в прикладную лингвистику. С.119.
5/7/2016
27
Требования к корпусу:
Компьютерная поддержка


необходимы специальные программы по
обработке данных
Необходима предварительная подготовка
текста для того, чтобы его можно было
обрабатывать компьютером
5/7/2016
28

Сбалансированный корпус


в корпусе должны быть представлены в
соответствующих пропорциях тексты разных
функциональных стилей, жанров, авторов и т.п.
(например, как художественная литература, так и
газетные и журнальные статьи, учебники, научнопопуляпная литература и т.д.). Пример:
Брауновский корпус Фрэнсис – Кучера. 1млн
словоупотреблений. 500 текстов по 2000
словоупотреблений.
Мониторный корпус
5/7/2016
29
 Основные
понятия (лекция 1)
 Требования
к корпусу
 Стандарты
 Разметка
5/7/2016
30
Требование унификации:
многократное использование;
 много пользователей;
 совместимость с другими корпусами;
 совместимость с другими лингвопроцессорами;
 совместимость с общепринятыми научными теориями;
 совместимость с общепринятыми классификациями;
 возможность применения стандартных программных
средств.

5/7/2016
31
Объекты стандартизации


Структура формата
Наполнение формата
Метаданные
Классификаторы
Лингвистическая разметка

5/7/2016
Кодировки
32
Стандарты
Пример:
In passing the door of that sanctum some time
after, I caught the words -'She'll happen do better for him nor ony o' f grand
ladies.' And again, 'If she ben't one o' th' handsomest,
she's noan faa''l, and varry
good-natured; and i' his een she's fair beautiful, onybody may see that.‘
474
JANE EYRE
475

5/7/2016
33
Стандарты

Пример:
In passing the door of that sanctum some time
after, I caught the words --
'She'll happen do better for him nor ony o' f grand
ladies.' And again, 'If she ben't one o' th' handsomest,
she's noan faa''l, and varry
good-natured; and i' his een she's fair beautiful, onybody may see that.‘
474
JANE EYRE
5/7/2016
475
34

Стандарты
В этой записи имеется ряд недостатков:
 номера страниц и колонтитулы идут прямо в тексте
(программам обработки трудно различать их);
 нет разницы между одинарными кавычками и апострофами
(проблемы с выделением прямой речи);
 сохранение переносов, которые были в исходном тексте,
(сложности для автоматического поиска);
 буква с ударением в слове faál и длинное тире представлены
специальными группами символов, которые не
соответствуют стандарту (дополнительные проблемы с
обработкой);
 абзацы выделены только отступом, а знак возврата каретки,
жестко задающий формат, имеется в конце каждой строки
(если изменить размер шрифта, которым печатается текст, то
переформатирование текста будет непростой задачей).
5/7/2016
35
Стандарты


In passing the door of
that sanctum some time after, I caught the words ‐
<p><q>She'll happen do better for him nor ony o' t' grand
ladies.</q> And again, <q>If she ben't one o' th'
handsomest, she's noan faàl, and varry good-natured;
and i' his een she's fair beautiful, onybody may see
that.</q>
<pb n='475'>
5/7/2016
36
Стандарты разметки




TEI – text encoding initiative
EAGLES -Expert Advisory Group on Language
Engineering Standards
SGML - Standard Generalised Markup Language
XML (Extensible Markup Language) - язык
разметки документов
5/7/2016
37
Другие международные проекты и
стандарты
стандарт CES (Corpus Encoding Standard);
 стандарт XCES (Corpus Encoding Standard for XML);
 проект ISLE (International Standards for Language
Engineering);
 стандарт CDIF (Corpus Document Interchange
Format, BNC).

5/7/2016
38
Группа стандартов TEI для корпусов
(TEI P4, TEI P5)
Схема описания документа:



библиографическое описание текста,
собственно метаописание текста и
"технологическое" описание:
кодировка текста, история создания электронной версии и
т.п.
5/7/2016
39
Стандарт Text Encoding Initiative
(TEI)
1.
2.
формальное описание текста
Название
Автор
Год
Размер
………
содержательное описание текста
Жанр
Стиль
Целевая аудитория
Время создания
………
5/7/2016
40
TEI
TEI – универсальное множество, из
которого создатель корпуса может выбрать
любое подмножество, релевантное для своей
конкретной задачи.
5/7/2016
41
Примеры стандартных тегов
TEI
•<front>
•содержит
различную
вступительную
информацию
(заголовки,
титульный
лист,
предисловия, посвящения и т.п.), которую
размещают перед основным текстом.
•<group> •содержит число монолитных текстов или групп
текстов.
•<body>
•содержит
всю
основную
часть
одного
монолитного текста, исключая то, что относится к
вводной или закрывающей частям текста.
•<back>
•содержит различные приложения и т.п., которые
располагаются после основной части текста.
5/7/2016
42
TEI
<p>
•отмечает абзацы написанного прозой
текста.
•<div>
•содержит раздел вводного, основного
или закрывающего текста.
•содержит раздел первого уровня
вводного, основного или закрывающего
текста (это самый высокий уровень, если
элемент <div0> не используется, или
второй уровень, если он используется).
•<div1>
5/7/2016
43
Кодирование метаданных в TEI
Предусмотрены следующие тэги:
1. <creation> — информация о времени и месте создания текста;
2. <textClass> — классификация текста;
3. <textDesc> — описание текста;
4. <particDesc> — описание автора или участников акта
коммуникации;
5. <settingDesc> — условия, в которых происходил акт коммуникации.
тэгов.
5/7/2016
Внутри каждого тэга – большое количество вложенных уточняющих
44
Классификаторы:
пример тематической классификации
EAGLES (1)
natsci
appsci
socsci
5/7/2016
естественные науки
mathematics
математика
physics
физика
chemistry
химия
…
прикладные науки
medicineмедицина
engineering
техника и технология
computing
вычислительная техника
military
военное дело
marine
мореплавание
…
общественные науки
anthropology
антропология
language лингвистика, филология
…
45
Формальные языки разметки


5/7/2016
SGML (Standard Generalized Mark-up
Language),
XML (Extensible Mark-up Language)
46
Пример описания на языке XML
описание слова 'лошади' будет записано следующим образом:
<noun lemma="лошадь" number="singular" gender=“feminine"
case="genitive">
лошади
</noun>
<w> лошади <ana lemma=“лошадь" feats="noun,sg,m,gen“/></w>
или
<w> lemma="лошадь" feats="NSM2----------">лошади</w>,
где NSM2 обозначает the noun (N), Singular (S), masculine (M),
Genitive (2)
5/7/2016
47
Разметка










 метатекстовая разметка
 разбиение текста на фрагменты
 лемматизация
 морфологическая разметка
 синтаксическая разметка
 семантическая разметка
 фонетическая разметка
другие типы разметки:
 анафорическая
 структура дискурса
DRT (http://www.coli.uni-sb.de/~bos/doris/ )
5/7/2016
48
Метаразметка






5/7/2016
Факторы:
1)
факторы, относящиеся к созданию
текста автором;
2)
факторы, относящиеся к внешним
признакам текста;
3)
факторы, относящиеся к целям
создания текста и его влиянию на
аудиторию.
4)
предметная область текста;
5)
стилистические особенности
текста.
49
Пример метаразметки:
<A BEAUMONT ELIZABETH> Author's name
 <C E1>
Sub-period
 <O 1500-1570>
Date of original
 <M X>
Date of manuscript
 <K X>
Contemporaneity of original and
manuscript
 <D ENGLISH>
Dialect
 <V PROSE>
Verse or prose
 <T LET PRIV>
Text type
 <F X>
Language of foreign original
 <W WRITTEN>
Relationship to spoken language
 <X FEMALE>
Sex of author
 <J INTERACTIVE>
Interactive/non-interactive
 <I INFORMAL>
Formal/informal
5/7/2016

50
Например, Трифонов, "Дом на набережной":
<teiHeader id="TRIF1" target="TRIFONOW/dom.txt" type="text" lang="ru">
<fileDesc>
<titleStmt>
<title>Дом на набережной</title><author>Юрий Трифонов</author>
<extent type="w">45238</extent>
<extent type="u">4</extent>
<extent type="s">4132</extent>
</titleStmt>
<sourceDesc>
<respStmt><name>Мошков</name><resp>Электронная
библиотека</resp></respStmt>
<address>http://www.lib.ru/PROZA/TRIFONOW/dom.txt</address>
</sourceDesc>
5/7/2016
</fileDesc>
51
Морфологическая разметка
This example is from the Spoken English Corpus and used the C7 tagset:
Perdita&NN1-NP0; ,&PUN; covering&VVG; the&AT0; bottom&NN1; of&PRF;
the&AT0; lorries&NN2; with&PRP; straw&NN1; to&TO0; protect&VVI; the&AT0;
ponies&NN2; '&POS; feet&NN2; ,&PUN; suddenly&AV0; heard&VVD-VVN;
Alejandro&NN1-NP0; shouting&VVG; that&CJT;

AJ0: general adjective

AT0: article, neutral for number
AV0: general adverb
AVP: prepositional adverb
CJC: co-ordinating conjunction
CJS: subordinating conjunction
CJT: that conjunction
DPS: possessive determiner
DT0: singular determiner
NN0: common noun, neutral for number
NN1: singular common noun
NN2: plural common noun
5/7/2016
NP0: proper noun
POS: genitive marker
PNP: pronoun
PRF: of
PRP: prepostition
PUN: punctuation
TO0: infintive to
VBI: be
VM0: modal auxiliary
VVB: base form of lexical verb
VVD: past tense form of lexical verb
VVG: -ing form of lexical verb
VVI: infinitive form of lexical verb
52
VVN: past participle form of lexical verb
EXAMPLE OF PART-OF-SPEECH TAGGING, LOB CORPUS:
hospitality_NN is_BEZ an_AT excellent_JJ virtue_NN ,_, but_CC
not_XNOT when_WRB the_ATI guests_NNS have_HV to_TO sleep_VB
in_IN rows_NNS in_IN the_ATI cellar_NN !_!
the_ATI lovers_NNS ,_, whose_WP$ chief_JJB scene_NN was_BEDZ
comparatively_RB little_AP to_TO sing_VB
cut_VBN at_IN the_ATI last_AP moment_NN ,_, had_HVD
Rollinson_NP ._.
'_' he_PP3A stole_VBD my_PP$ wallet_NN !_! '_' roared_VBD
5/7/2016
53
Пример морфологической разметки
Национального корпуса русского языка:

<s>Я{я=S,ед,од=им}
сидел{сидеть=V,несов=изъяв,прош,ед,муж}
на{на=PR}

барском{барский=A=ед,сред,пр}
сиденье{сиденье=S,сред,неод=ед,пр},
дышал{дышать=V,несов=изъяв,прош,ед,муж}
горячим{горячий=A=ед,муж,твор}
ветром{ветер=S,муж,неод=ед,твор},
бившим{бить=V,несов=прич,прош,ед,муж,твор}
в{в=PR} лицо{лицо=S,сред,неод=ед,вин},
ощущая{ощущать=V=несов,деепр,непрош}
в{в=PR} то{тот=A=ед,сред,вин} же{же=PART}
время{время=S,сред,неод=ед,вин} не{не=PART}
5/7/2016
54
Лемматизация
SUSANNE corpus :

N12:0510g - PPHS1m He he
N12:0510h - VVDv studied study
N12:0510i - AT
the
the
N12:0510j - NN1c problem
problem ...
VVDv thought think
N12:0520c - IO of of

N12:0520d - AT1 a a





5/7/2016







N12:0520e - NNc means means
N12:0520f - IIb by by
N12:0520g - DDQr which which
N12:0520h - PPH1 it it
N12:0520i - VMd might may
N12:0520j - VB0 be be
N12:0520k - VVNt solved solve
N12:0520m - YF +. -
55
Синтаксическая разметка
 Treebanks
Parsing
(S=sentence, NP=noun phrase, VP=verb phrase, PP=prepositional phrase, N=noun, V=verb,
AT=article, P=preposition.)
5/7/2016
56
[S[NP Claudia_NP1 NP][VP sat_VVD [PP on_II [NP a_AT1
stool_NN1 NP] PP] VP] S]
[S
[NP Claudia NP]
[VP sat
[PP on
[NP a stool NP]
PP]
VP]
S]
5/7/2016
57
Full parsing:
[S[Ncs another_DT new_JJ style_NN feature_NN Ncs]
[Vzb is_BEZ Vzb] [Ns the_AT1 [NN/JJ& wine-glass_NN
[JJ+ or_CC flared_JJ HH+]NN/JJ&] heel_NN ,_,
[Fr[Nq which_WDT Nq] [Vzp was_BEDZ shown_VBN Vzp]
[Tn[Vn teamed_VBN Vn] [R up_RP R] [P with_INW
[NP[JJ/JJ/NN& pointed_JJ ,_, [JJ- squared_JJ JJ-]
,_, [NN+ and_CC chisel_NN NN+]JJ/JJ/NN&] toes_NNS
Np]P]Tn]Fr]Ns] ._. S]
& whole coordination
+ subordinate conjunct,
introduced
- subordinate conjunct, not
introduced
Fr relative phrase
JJ adjective phrase
Ncs noun phrase, count noun
singular
Np noun phrase, plural
Nq noun phrase, wh-word
Ns noun phrase, singular
5/7/2016

P prepositional phrase
R adverbial phrase
S sentence
singular
Tn past participal phrase
Vn verb phrase, past participle
Vzb verb phrase, third person singular to be
Vzp verb phrase, passive third person
58
Skeleton Parsing
[S& [P For_IF [N the_AT members_NN2 [P of_IO [N
this_DD1 university_NNL1 N]P]N]P] [N this_DD1
charter_NN1 N] [V enshrines_VVZ [N a_AT1
victorious_JJ principle_NN1 N]V]S&] ;_; and_CC
[S+[N the_AT fruits_NN2 [P of_IO [N that_DD1
victory_NN1 N]P]N] [V can_VM immediately_RR be_VB0
seen_VVN [P in_II [N the_AT international_JJ
community_NNJ [P of_IO [N scholars_NN2 N]P] [Fr
that_CST [V has_VHZ graduated_VVN here_RL today_RT
V]Fr]N]P]V]S+]
5/7/2016
59
Семантическая разметка


Разрешение семантической неоднозначности
Выделение значений лексем в данном
контексте
Разметка в соответствии с тезаурусом Роже
 Разметка семантических ролей
 Разметка в соответсвии с выделяемыми в словаре
подзначениями
 Разметка в соответствии с классами, выделяемыми
в WORDNET

5/7/2016
60
Пример семантической разметки:
По тезаурусу Роже








And
the
soldiers
platted
a
crown
of
thorns
00000000
00000000
23241000
21072000
00000000
21110400
00000000
13010000







5/7/2016
00000000 Low content word
(and, the, a, of, on, his, they etc)
13010000 Plant life in general
21030000 Body and body parts
21072000 Object-oriented
physical activity (e.g. put)
21110321 Men's clothing: outer
clothing
21110400 Headgear
23231000 War and conflict:
general
61
Пример семантической разметки в НКРЯ
<st> При{при=ПРЕД} мощном{мощный=П=ср,ед,пр}
сложении{сложение=С,ср,но=ед,пр},
крупной{крупный=П=жр,ед,пр}
голове{голова=С,жр,но=ед,пр}, крупных{крупный=П=мн,пр}
чертах{черта=С,жр,но=мн,пр [Ex="Провести черту."
R="непр" Cl="форма" | Ex="Пограничная ч." R="непр"
C3="характеристика" Ap="оценка:max" | Ex="Черты
характера." R="непр" C3="характеристика" |
Ex="Пограничная ч" R="предм" Cl="пр&м" ]}
лица{лицо=С,ср,но=ед,рд} он{он=М-С,мр,ед,3л=им},
когда{когда=СОЮЗ} сидел{сидеть=Г,нс,нп,дст=мр,ед,прш},
производил{производить=Г,нс,пе=мр,ед,дст,прш
[Mo="преф" | Ex="Завод производит станки."
Cl="существование" Ca="каузация существования"
Mo="преф" | Ex="П. свое имя от древнего рода."
Mo="преф" ]} впечатление{впечатление=С,ср,но=ед,вн
[R="непр" Cl="восприятие" C4="возд" | R="непр"
Do="ментальная сфера" ]} рослого{рослый=П=мр,ед,рд}
человека{человек=С,мр,од=ед,рд}.</st>
5/7/2016
62
Пример семантической разметки:
The rock moved down the hill rolling
FIGURE MOTION PATH GROUND MANNER
The rock rolled down the hill
FIGURE MOTION + MANNER PATH GROUND
La botella entró a la cueva flotando
(the bottle) (moved-in) (to) (the cave) (floating)
FIGURE MOTION + PATH PATH GROUND MANNER
She powdered her nose
MOTION + PATH + FIGURE GROUND
I shelved the books
MOTION + PATH + GROUND FIGURE
5/7/2016
63
1.2.6. Фонетическая разметка
 1 8 14 1470 1 1 A 11 ^what a_bout a cigar\ette# .
/1 8 15 1480 1 1 A 20 *((4 sylls))*
/1 8 14 1490 1 1 B 11 *I ^w\on't have
one th/anks#* - - /1 8 14 1500 1 1 A 11
^aren't you .going to sit d/own# /1 8 14
1510 1 1 B 11 ^[/\m]#  # end of tone group
 ^ onset
 / rising nuclear tone \ falling nuclear tone /\ rise-fall
nuclear tone_ level nuclear tone
 [] enclose partial words and phonetic symbols.
 normal stress
 ! booster: higher pitch than preceding prominent
64
5/7/2016
syllable
1.2.7. Разметка анафоры

A039 1 v (1 [N Local_JJ
atheists_NN2 N] 1) [V want_VV0
(2 [N the_AT (9 Charlotte_N1 9)
Police_NN2 Department_NNJ N] 2)
[Ti to_TO get_VV0 rid_VVN of_IO
[N 3 <REF=2 its_APP$ chaplain
3) ,_, [N {{3 the_AT Rev._NNSB1
Dennis_NP1 Whitaker_NP1 3} ,_,
38_MC N]N]Ti]V] ._.
5/7/2016
65
Другие виды разметки

структура дискурса
"apologies" e.g. sorry, excuse me
"greetings" e.g. hello
"hedges" e.g. kind of, sort of thing
"politeness" e.g. please
"responses" e.g. really, that's right

DRT (http://www.coli.uni-sb.de/~bos/doris/ )





5/7/2016
66
Принципы разметки
Leech's Maxims of Annotation






Теоретическая база – максимально независимая, но
не может быть таковой
Тэги – мнемоничные, теоретически прозрачные
По возможности однозначные
Минимальный набор необходимых тэгов
Тэги поддающиеся инструктажу – 2 любых
человека с улицы оттэгировали одинаково
Недорогие общедоступные решения
5/7/2016
67
Максимы Лича
Требование удаления/восстановления разметки
<w><ana lex="из-под" gr="PR"/>Из-под</w>
<w><ana lex="сено" gr="S n inan sg gen" sem="r:concr t:stuff t:food:fodder pt:aggr sc:part(plant) "
sem2="r:concr t:stuff t:food:fodder pt:aggr sc:part(plant) "/>сена</w> ,
<w><ana lex="на" gr="PR"/>на</w>
<w><ana lex="который" gr="A-PRO n sg loc" sem="r:rel | r:rel t:ord " sem2="r:rel | r:rel t:ord
"/>котором</w>
<w><ana
lex="лежать"
intr act m sg лежал
praet indic act"
sem="t:loc:body
ca:noncaus d:root"
Из-под
сена gr="V
, на ipf
котором
, Платон
Спиридоныч
sem2="t:loc:body ca:noncaus d:root || d:root | t:loc ca:noncaus d:root | d:root | d:root | d:root |
вытянул
свёрток
, протянул Павлу
d:root "/>лежал</w>
,
<w><ana lex="Платон" gr="S persn m anim sg nom" sem="r:propn t:hum t:persn" sem2="r:propn
t:hum t:persn || t:fam"/>Платон</w>
<w><ana lex="Спиридонович" gr="S m anim sg nom distort" sem="r:propn t:hum t:patrn der:s "
sem2="r:propn t:hum t:patrn der:s "/>Спиридоныч</w>
<w><ana lex="вытянуть" gr="V pf tran m sg act praet indic act" sem="t:move ca:caus d:pref der:v"
sem2="t:move ca:caus d:pref der:v || d:pref der:v | d:pref der:v | d:pref der:v | d:pref der:v | d:pref
der:v | d:pref der:v | d:pref der:v | d:pref der:v "/>вытянул</w>
<w><ana lex="сверток" gr="S m inan sg acc" sem="r:concr pt:set sc:thing der:v" sem2="r:concr pt:set
sc:thing der:v || r:concr pt:qtm qc:stuff der:v "/>свёрток</w> ,
<w><ana lex="протянуть" gr="V pf tran m sg act praet indic act" sem="d:pref der:v" sem2="d:pref
der:v || d:pref der:v | d:pref der:v | d:pref der:v | d:pref der:v | t:be:exist ca:noncaus d:pref der:v |
d:pref der:v | d:pref der:v "/>протянул</w>
<w><ana lex="Павел" gr="S persn m anim sg dat" sem="r:propn t:hum t:persn " sem2="r:propn t:hum
68
5/7/2016
t:persn "/>Павлу</w>
Скачать