Слово Лексемы, словоформы, леммы 1

реклама
Слово
Лексемы, словоформы,
леммы
1
Проблема слова «слово»
Что называется словом в естественном
языке? Самые разные вещи:
 «В этом стихотворении ровно сто слов»
 «До реформы орфографии это слово
писалось с ером»
 «Это слово мне незнакомо»
 «Лексический минимум первого года
обучения – тысяча слов»
2
Словоупотребление – единица
(письменного) текста
«В этом стихотворении ровно сто слов»
Словоупотребление: последовательности
символов в тексте, отделенные друг от друга
пробелами и знаками препинания (и другими
разделителями)

3
Также (word) token, единица измерения
корпусов
Словоупотребление



4
Чем больше количество словоупотреблений,
тем представительнее корпус
Word per million, occurences per million,
incidence per million – частотная
характеристика исследуемого феномена в
корпусе («удельный вес»)
Также – например, измерение скорости речи
Словоформа
5
«До реформы орфографии это слово
писалось с ером на конце»
«Второго слова в пятой строчке
стихотворения Катулла я
проанализировать не смог – вот оно же в
шестой»
 Wordform, word form, форма слова
 В простом случае – последовательность
«символов» Но где?
Словоформа



6
Последовательность фонем или «звуков» или
звукотипов (ментальных символов хранения
словесных артикуляций) – в зависимости от теории
Также, например, единица измерения словника
(например, пока неизвестного) языка: конкорданса,
симфонии
Словоформа: абстрактная единица, по
отношению к которой конкретные идентичные
словоупотребления являются ее контекстными
реализациями
Лексема
«Лексический минимум первого года обучения –
тысяча слов»

7
Топор, топора, топору... топоры, топоров,
топорам... – что можно сказать про значение этих
«слов»
эти «слова» имеют одинаковое лексическое
значение, различаясь лишь грамматическими
значениями (значениями синтаксических –
например, падеж или семантических – например,
число – категорий).
Лексическое и грамматическое
значение

Топор, топорик, топорный – что можно сказать
про значения этих «слов» в терминах
лексического и грамматического значения?
- эти слова имеют разное лексическое значение
(при этом два первых слова имеют одинаковое
грамматическое значение)
8
Лексема
Лексема: абстрактная единица,
соответствующая множеству всех
морфологически связанных друг с другом
(принадлежащих одной парадигме)
словоформ с одинаковым лексическим
значением / различающихся только
грамматическим значением
9
NB: словоформа↔{лексема,{ГК1=1,ГК2=5…ГКn= 2} }
т.е. каждой словоформе можно сопоставить пару
лексема + набор значений грам. категорий
Summary



10
Словоупотребление – единица текста
Словоформа – единица грамматики,
абстрактная совокупность
(~тождественных) словоупотреблений
Лексема – единица словаря, абстрактная
совокупность ~родственных словоформ
Лексема – единица словаря
«Лексический минимум первого года
обучения – тысяча слов»
 Lexical item, словарный вход
 Хаспельмат: пользователь словаря не
ожидает найти в словаре слово sleeps, но
ожидает найти там слово sleep
 Однако определение через словарь для
нелингвиста (дан словарь)
11
Лексема – единица словаря




12
Оно также зависит от структуры словаря –
sleeplessly отдельная лексема, но в словаре в
статье sleepless
Что попадает в словаре в разные статьи, а что в
одну?
Отчасти типографский вопрос (связано также с
лексикографической традицией: ср. арабские
словари)
Также коррелирует с вопросом о структуре
ментального лексикона (как слова хранятся в мозге)
Лексическое значение


13
Различие между грамматическим и
лексическим значениями кажется интуитивно
ясным
Топор, топора, топору... топоры, топоров,
топорам...
Топор, топорик, топорный
Однако мы уже знаем, что набор
грамматических значений изменяется от
языка к языку
Грамматическое значение (preview)
Значит, для каждого языка определение того, что
в нем является грамматическим, должно
осуществляться заново
 Якобсон (о Боасе): «грамматическое – это
не то, что говорящий на языке может
выразить, а то, что он не может не выразить».
 В русском языке у существительных
грамматическое значение –
число, падеж
лексическое значение –
например, уменьшительность

14
Как это связано со словоизменением
и словообразованием?


15
Словоизменение – остаемся в пределах
одной лексемы
Словообразование – связь между
лексемами
Традиционно – разные части речи не могут
принадлежать одной лексеме, однако...
... проблема абсолютно продуктивных
дериваций (например, причастия)
Обязательность как критерий
грамматического



Основная проблема – грамматологический подход
(обязательность) vs. многие другие подходы, в том
числе экспериментальный (продуктивность)
Все обязательное продуктивно, но не все
продуктивное обязательно
Не вполне понятно, в каком смысле обязательным
является образование причастий
Одно из возможных решений – развести грамматическое
и словоизменительное (последнее может быть шире)
16
Парадигма

Парадигма (в узком смысле) – определенным
образом упорядоченный набор словоформ,
объединенных общим лексическим значением
(т.е. принадлежащих одной лексеме).
[иногда говорят и о словобразовательной парадигме
определенной лексемы, например:
приставочная парадигма глагольной основы (с какими
приставками основа сочетается)]
17
Лексема ~ словоформа


18
В этом смысле утверждение Хаспельмата:
словоформа эквивалентна паре лексема +
набор грамматических значений
«Простейшие» задачи автоматического
анализа текста) – по словоформе получить
лексему и набор грамматических значений;
по лексеме и набору грамматических
значений построить словоформу
Лемма



19
Лексема – это не начальная форма. Это
именно совокупность словоформ,
абстрактная единица более высокого
уровня; соответствует не словарному
входу, а словарной статье в целом
Словарная статья – описывает лексему и
лексическое значение
Начальная форма (лемма) – называет ее
Лемма
Также: начальная форма, исходная форма
Чтобы назвать лексему, неудобно перечислять
все входящие в нее словоформы
 Вместо этого чаще всего используется одна из
словоформ. Какая?
у существительных? у глаголов?
 Выбор в значительной степени произволен
 Теоретически может использоваться и не
словоформа, а основа – но это менее удобно
нелингвисту

20
Лемма vs. Начальная форма


Термин «лемма» в лингвистике имеет легкий
компьютерный привкус (лемматизация и т.д)
Под начальными или исходными формами
иногда также понимают опорные формы –
набор форм, задающих словоизменительный
тип данной лексемы
–

21
например?
В этом случае понятия исходной (начальной)
формы и леммы оказываются различными
Family metaphor




22

Представим себе фотоальбом. Будем считать, что
семья – семейство людей – это лексема. Тогда:
Конкретные изображения людей на фотографиях ~
словоупотребление
Конкретный человек (пусть изображенный
несколько раз) ~ словоформа
Люди, принадлежащие одной семье ~ словоформы
одной лексемы
Лемма – это фамилия
Парадигма – генеалогическое древо
Семинар и чтение



23
Зализняк: РИС, Глава 1
Обсуждение определения Хаспельмата и
его проблем
Подсчет словоупотреблений, словоформ,
лексем
«Почему не говорят?»


24
Сложная загадка: почему не говорят, что
словоформа – последовательность символов,
которые могут встретиться между пробелами?
(=зачем нужно определение Хаспельмата)
Очень сложная загадка (contra Хаспельмат):
почему не следует говорить, что словоформа –
это лексема плюс (полный) набор
грамматических значений?
WPM


25
Один исследователь изучал историю
лексемы L на материале НКРЯ. Для этого
он посчитал количество вхождений всех
словоформ L в тексты 18-го, 19-го и 20-го
веков – получилось n1, n2 и n3,
соответственно, причем n1 < n2 < n3
Исследователь сделал вывод, что
частотность L со временем растет.
Прокомментируйте этот вывод.
Скачать