Лекция 5. Графематический анализ. Лингвистическая разметка. Параллельные корпусы. В.П. Захаров Санкт-Петербургский государственный университет Графематический анализ (1) Разделение входного текста на элементы (слова, разделители и т.д.); 2. удаление нетекстовых элементов; 3. выделение и оформление нестандартных (нелексических) элементов, например: 1. элементов форматирования – жирность, курсивность, подчёркивание; структурных элементов текста – заголовков, абзацев, примечаний; различных элементов текста, не являющихся словами (числа, даты в цифровых форматах, буквенно-цифровые комплексы, и т.п.); имен (имя, отчество), написанных инициалами; иностранных лексем, записанных латиницей; и т.д. Лекция 5 Корпусная лингвистика 2 Графематический анализ (2) Cложности: обработка дефиса и пробела; выделение составных предлогов, устойчивых оборотов, аналитических форм и др.; иноязычные фрагменты; нетекстовые элементы. Лекция 5 Корпусная лингвистика 3 Графематический анализ (3) 1. Межсловный дефис: объединительная функция (буква)? кто-то, где-нибудь, давным-давно, бакш-таг, брейд-вымпел, генерал-аншеф или разделительная функция (знак препинания)? старик-художник, словарь-справочник, девочка-пионерка 2. Пробел: объединительная функция (буква)? сто двадцать пять или разделительная функция? русский язык Лекция 5 Корпусная лингвистика 4 Графематический анализ (4) Примерный перечень элементов текста, требующих специальной обработки Названия Сами рисунков рисунки Адрес докладчика/унив-та Тезисы докладов отдельным файлом Примечания Перечисления Страницы Текст списком Зачеркивания Слова типа «рак1», «рак2», Nкластеры Титульные Таблицы Списки форзаца листы литературы Цифры Формат Римские цифры Иностр. язык в тексте Рус. Адреса, ссылки, гиперссылки Формулы Сокращения, Пример Лекция 5 аббревиатуры поиска в тексте яз. в иностранном тексте Значки для формул Схемы Корпусная лингвистика 5 Лингвистическая разметка морфологическая разметка синтаксическая разметка семантическая разметка анафорическая разметка просодическая разметка и т.д. Лекция 5 Корпусная лингвистика 6 Принципы разметки Описание (обоснование) схемы разметки Общепринятая система лингвистических понятий Известная для пользователя схема анализа Мотивированность введения параметров Теоретически нейтральная (традиционная) схема разметки Лекция 5 Корпусная лингвистика 7 Морфологическая разметка Синонимы: part-of-speech tagging (POS-tagging), частеречная разметка. Элементы данных морфологической разметки включают: лемму; признак части речи; признаки грамматических категорий. Лекция 5 Корпусная лингвистика 8 Морфологическая разметка: граммемы (на основе системы ДИАЛИНГ) (1) Attributes "pos" of the tag <ana> С - существительное, П - прилагательное, Г - глагол в личной форме, ПРИЧАСТИЕ - причастие ; ДЕЕПРИЧАСТИЕ – деепричастие, ИНФИНИТИВ – инфинитив, МС - местоимениесуществительное, МС-П - местоименное прилагательное , МС-ПРЕДК - местоимениепредикатив , ЧИСЛ - числительное (количественное), ЧИСЛ-П - порядковое числительное, Лекция 5 Attributes "gram" of the tag <ana> мр, жр, ср - мужской, женский, средний род; од, но - одушевленность, неодушевленность; ед, мн - единственное, множественное число; им, рд, дт, вн, тв, пр, зв - падежи: именительный, родительный, дательный, винительный, творительный, предложный, звательный; 2 - второй родительный или второй предложный падежи; св, нс - совершенный, несовершенный вид; пе, нп - переходный, непереходный глагол; дст, стр - действительный, страдательный залог; нст, прш, буд - настоящее, прошедшее, будущее время; Корпусная лингвистика 9 Морфологическая разметка: граммемы (на основе системы ДИАЛИНГ) (2) Attributes "pos" of the tag <ana> Attributes "gram" of the tag <ana> Н - наречие, ПРЕДК - предикатив, ПРЕДЛ - предлог, СОЮЗ - союз, МЕЖД - междометие, ЧАСТ - частица, ВВОДН - вводное слово, дфст - слово обычно не имеет множественного числа, опч - частая опечатка или ошибка, жарг, арх, проф - жаргонизм, архаизм, профессионализм, аббр – аббревиатура, пвл - повелительная форма глагола; 1л, 2л, 3л - первое, второе, третье лицо; 0 - неизменяемое. кр - краткость (для прилагательных и причастий). сравн - сравнительная форма (для прилагательных). имя, фам, отч - имя, фамилия, отчество. лок, орг - локативность, организация. кач - качественное прилагательное. вопр, относ - вопросительность и относительность (для наречий). безл - безличный глагол. Лекция 5 Корпусная лингвистика 10 Пример морфологической разметки (на основе системы ДИАЛИНГ) <?xml version="1.0" encoding="windows-1251" ?> <text> <p> <s> <w>Звонили<ana lemma="ЗВОНИТЬ" pos="Г" gram="мн,нс,нп,дст,прш," /></w> <w>к<ana lemma="К" pos="ПРЕДЛ" gram="" /></w> <w>вечерне <ana lemma="ВЕЧЕРНЯ" pos="С" gram="жр,ед,дт,пр,но," /> <ana lemma="ВЕЧЕРНИЙ" pos="П" gram="ср,ед,кр," /></w> <pun>.</pun> </s> <s><w>Торжественный<ana lemma="ТОРЖЕСТВЕННЫЙ" pos="П" gram="мр,ед,им,вн," /></w> <w>гул<ana lemma="ГУЛ" pos="С" gram="мр,ед,им,вн,но," /></w> <w>колоколов <ana lemma="КОЛОКОЛ" pos="С" gram="мр,мн,рд,но," /> <ana lemma="КОЛОКОЛОВ" pos="С" gram="мр,фам,ед,им,од," /></w> ……………………..<pun>.</pun> </s></p></text> Лекция 5 Корпусная лингвистика 11 Проблемы морфоанализа и морфоразметки ► анализ слов с дефисом: ► нераспознавание многих имен собственных, особенно иностранных; нераспознавание прилагательных и существительных, образованных от имен собственных: архимедов, ахиллов, дантов, гулливеров, горациев, марфенькин; неразпознование аббревиатур и сокращений: г., гг., фр., д., 20 авг.<уста>, англ.; сложные слова различных типов: ► ► ► ► кто-нибудь, по видимому, велико светский, полу бог); односложный, двухэтажный, трехдневный,, четырехлетний, полуотворенный, полсотни, бледночернильный, многообещавший, благорожденный; словообразовательные дериваты, в том числе многочисленные уменьшительно-ласкательные и уменьшительно-пренебрежительные образования: ангельчик, армячишка, барельефчик, кресельца, панталончики, сертучишка, цветничок. Лекция 5 Корпусная лингвистика 12 Синтаксическая разметка фиксация синтаксических связей приписывание синтаксическим единицам соответствующих характеристик: • тип предложения • синтаксическая функция • член предложения • и т.п. Лекция 5 Корпусная лингвистика 13 Сложности синтаксической разметки: разнообразие синтаксических теорий и формализмов: грамматика зависимостей; грамматика непосредственно-составляющих; грамматика структурных схем; традиционные синтаксические учения о членах предложения; функциональная грамматика; семантический синтаксис; и др. Лекция 5 Корпусная лингвистика 14 Пример синтаксического разбора (грамматика зависимостей, система ЭТАП-3) Long ago, in the city of Babylon, the people began to build a huge tower which seemed to reach the heavens soon. Лекция 5 Корпусная лингвистика 15 Пример синтаксического разбора Лекция 5 Корпусная лингвистика 16 Семантическая разметка Значения слов Разрешение омонимии и синонимии Категоризация слов (разряды) Тематические классы Признаки каузативности Оценки Деривационные характеристики И т.д. Лекция 5 Корпусная лингвистика 17 Семантическая разметка в Национальном корпусе русского языка Три группы помет: разряд • имя собственное • возвратное местоимение • и т.д. лексико-семантические характеристики: • таксономия (тематический класс лексемы) — для имен • • • • • Лекция 5 существительных, прилагательных, глаголов и наречий; мереология (указание на отношения «часть — целое», «элемент — множество») — для предметных и непредметных имен; топология (топологический статус обозначаемого объекта) — для предметных имен; каузация — для глаголов; служебный статус — для глаголов; оценка — для предметных и непредметных имен, прилагательных и наречий. Корпусная лингвистика 18 Семантическая разметка в Национальном корпусе русского языка (2) деривационные характеристики • Собственно лексико-семантические пометы сгруппированы по • • • • • следующим полям: Словообразовательные характеристики включают несколько типов: морфо-семантические словообразовательные признаки (например, «диминутив», «каритив», «семельфактив»); разряд производящего слова (например, отглагольное существительное или отадъективное наречие); лексико-семантический (таксономический) тип производящего слова (например, наречие, образованное от прилагательного размера); морфологический тип словообразования (субстантивация, сложное слово). Более подробно см. ruscorpora.ru Семантика в корпусе Лекция 5 Корпусная лингвистика 19 Пользователи параллельных корпусов: 1) переводчики-практики; 2) лексикографы; 3) разработчики систем машинного перевода и лексиконов к ним; 4) разработчиков систем переводческой памяти (типа Trados Workbench и Star Transit); 5) лингвисты, в т.ч. компаративисты, лексикологи, переводоведы, а также ипользуются литературоведами, социологами и культурологами как незаменимый источник эмпирической информации; 6) преподаватели и студенты – источник образцов перевода и языковых примеров. Лекция 5 Корпусная лингвистика 20 Пример русско-словацкого параллельного корпуса 4229 Пера , правда , не было . 18006 " - и сам , правда сделав над собою A veru som voči Kňaževičovi pocítil очень большое усилие , уставился в akúsi neurčitú mrzutosť . ответ в глаза человеку . 39893 Не правда ли ? Je to správne ? 54998 Я , правда , не зная этого баритона , могу сказать , что лучше всех подносил букет сам Иван Васильевич . Ja som toho barytonistu , pravdaže , nepoznal , ale môžem povedať , že najlepšie podával kyticu sám Ivan Vasilievič . 67987 " Бог с ней , - размышляла Джесси , - она правда несчастна до содрогания , потому что с такой страстью погрузилась в свое уродство , хотя я к ней привыкла и ничего особенного не нахожу . Лекция 5 Pravda , pero na ňom chýbalo . Prikázala len , aby jej oznámili , keď si sestra sadne do auta . „ Boh ju sprevádzaj , " rozmýšľala Jessie . „ Je naozaj strašne nešťastná , lebo sa náramne pohrúžila do svojej škaredosti , hoci ja som si na ňu navykla a nič zvláštne na nej nevidím . Корпусная лингвистика 21