Корп.лингвистика. 3к. ФиПЛ 15-16+x

реклама
Правительство Российской Федерации
Нижегородский филиал
Федерального государственного автономного образовательного учреждения высшего профессионального образования
"Национальный исследовательский университет
"Высшая школа экономики"
Факультет гуманитарных наук
Кафедра иностранных языков
Рабочая программа дисциплины
«Корпусная лингвистика и компьютерные инструменты»
для образовательной программы
45.03.03 «Фундаментальная и прикладная лингвистика»
уровня подготовки бакалавр
Разработчик программы:
Малафеев А.Ю., к.филол.н., aumalafeev@hse.ru
Одобрена на заседании кафедры иностранных языков
«___»____________ 2015 г.
Зав. кафедрой В.М. Бухаров____________
Утверждена «___»____________ 2015 г.
Академический руководитель образовательной программы
45.03.03 «Фундаментальная и прикладная лингвистика»
А.Ю.Малафеев _________________
Нижний Новгород
2015
Настоящая программа не может быть использована другими подразделениями университета и другими вузами без разрешения кафедры-разработчика программы
Национальный исследовательский университет «Высшая школа экономики»
Рабочая программа дисциплины «Корпусная лингвистика и компьютерные инструменты» для образовательной программы 45.03.03 «Фундаментальная и прикладная лингвистика»
уровня подготовки бакалавр
1
Область применения и нормативные ссылки
Настоящая программа учебной дисциплины устанавливает минимальные требования к знаниям и умениям студента и определяет содержание и виды учебных занятий и отчетности.
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления 45.03.03 «Фундаментальная и прикладная лингвистика», изучающих дисциплину «Корпусная лингвистика и компьютерные инструменты».
Программа разработана в соответствии с:
 образовательным стандартом НИУ ВШЭ для направления 45.03.03 «Фундаментальная и
прикладная лингвистика»;
 образовательной программой направления 45.03.03 «Фундаментальная и прикладная
лингвистика»;
 учебным планом университета по направлению подготовки направления 45.03.03 «Фундаментальная и прикладная лингвистика», утвержденным в 2015г.
2
Цели освоения дисциплины
Целями освоения дисциплины «Корпусная лингвистика и компьютерные инструменты» являются ознакомление с историей и основными проблемами современной корпусной лингвистики, а
также приобретение практических навыков работы с корпусами и связанными с ними компьютерными инструментами (конкордансеры, корпусные менеджеры, программы для автоматического создания корпусов и др.). Дисциплина преподается на английском языке, поэтому дополнительная
цель ее изучения – развитие навыков профессионального общения на английском языке.
3
Компетенции обучающегося, формируемые в результате освоения дисциплины
В результате освоения дисциплины студент должен:
 Знать ключевые понятия и актуальные проблемы корпусной лингвистики, вехи ее развития, основные типы корпусов, наиболее известные и широко применяемые иноязычные и
русскоязычные корпусы, способы использования корпусов для различных целей (исследовательских и практических), методику создания корпусов, основные форматы и способы организации корпусов.
 Уметь определять тип и способы применения незнакомых корпусов, осваивать новые
компьютерные инструменты, в частности, (веб-)интерфейсы к корпусам на основе уже
имеющихся знаний и навыков, интерпретировать данные, полученные из корпусов, сравнивать и оценивать функциональность корпусов и инструментов по результатам работы с
ними.
 Иметь навыки (приобрести опыт) работы с несколькими существующими иноязычными и
русскоязычными корпусами и корпусными менеджерами, формулирования сложных
лингвистических запросов с использованием специальных обозначений (тэгов) и регулярных выражений, разметки текстов и чтения разметки, выполнения корпусных миниисследований, проектирования собственного корпуса, создания небольших специализированных корпусов.
В результате освоения дисциплины студент осваивает следующие компетенции:
2
Национальный исследовательский университет «Высшая школа экономики»
Рабочая программа дисциплины «Корпусная лингвистика и компьютерные инструменты» для образовательной программы 45.03.03 «Фундаментальная и прикладная лингвистика»
уровня подготовки бакалавр
Компетенция
Системные
ции:
Код по
единому
классификатору
Дескрипторы – основные признаки
освоения (показатели достижения
результата)
Формы и методы обучения, способствующие
формированию и развитию компетенции
компетен-
Способен применять профессиональные знания и
умения на практике.
СК-Б2
Применяет теоретические знания о
корпусной лингвистике для решения конкретных задач.
Семинары, самостоятельная работа, работа в
группах
Способен оценивать потребность в ресурсах и
планировать их использование при решении задач в
профессиональной деятельности.
СК-Б5
Демонстрирует понимание того,
какие ресурсы необходимы для решения задач в области корпусной
лингвистики и создания новых корпусов.
Самостоятельная работа,
групповая работа, проекты
Способен создавать и редактировать тексты профессионального назначения, в том числе квалификационные работы, тезисы,
презентации, научные статьи.
ПК-3
Успешно готовит и проводит презентации мини-исследований.
Семинары, самостоятельная работа, групповая
работа, проектная деятельность
Способен свободно вести
профессиональное письменное и устное общение
на первом иностранном
языке.
ПК-4
Формулирует и отвечает на вопросы
по тематике дисциплины на английском языке.
Лекции, семинары, групповые дискуссии
Способен проводить сбор
и документацию лингвистических данных.
ПК-6
Успешно собирает и систематизирует данные, полученные в ходе групповых и индивидуальных миниисследований.
Семинары, самостоятельная работа, групповая
работа, проектная деятельность
Способен спланировать и
провести лингвистический
эксперимент, описать его
результаты и сформулировать выводы.
ПК-7
Успешно проводит индивидуальные
и групповые лингвистические эксперименты, представляет их результаты на семинарах.
Семинары, самостоятельная работа, групповая
работа, проектная деятельность
Обосновывает для себя необходимость изучения и практики в области корпусной лингвистики для
профессионального и личностного
развития
Лекции, семинары, групповые дискуссии
Профессиональные компетенции:
Социально-личностные
компетенции:
Способен к осознанному
целеполаганию, профессиональному и личностному
развитию
СЛК-Б3
3
Национальный исследовательский университет «Высшая школа экономики»
Рабочая программа дисциплины «Корпусная лингвистика и компьютерные инструменты» для образовательной программы 45.03.03 «Фундаментальная и прикладная лингвистика»
уровня подготовки бакалавр
Компетенция
Способен к социальному
взаимодействию, к сотрудничеству и разрешению конфликтов
Код по
Дескрипторы – основные признаки
единому
освоения (показатели достижения
классирезультата)
фикатору
СЛК-Б4 Оценивает предложения коллег в
контексте проектной деятельности,
обосновывает собственную позицию
Формы и методы обучения, способствующие
формированию и развитию компетенции
Проекты, групповая работа
Инструментальные компетенции:
Способен участвовать в
проектной деятельности
Способен грамотно и аргументировано публично
представлять результаты
своей деятельности (научной, профессиональной и
др.), используя современные средства ИКТ
4
1.1ПД
Обосновывает принятые решения,
оценивает проекты коллег
ИКПрименяет современные средства
Б2.5.2_3.1 ИКТ для презентации результатов
_3.2
своей деятельности в области корпусной лингвистики
Проекты, групповая работа, презентации
Семинары, презентации,
групповые дискуссии
Место дисциплины в структуре образовательной программы
Настоящая дисциплина относится к циклу гуманитарных дисциплин для направления
45.03.03 «Фундаментальная и прикладная лингвистика». Дисциплина изучается на третьем курсе, в
1 и 2 модулях.
Изучение данной дисциплины базируется на следующих дисциплинах: «Введение в лингвистику», «Теория языка». При практической работе на семинарах студенты используют навыки, полученные в рамках освоения дисциплины «Программирование для лингвистов».
Основные положения дисциплины должны быть использованы в дальнейшем при изучении
дисциплин «Автоматическая обработка естественного языка (преподается на английском языке)»,
«Современные лингвистические теории (преподается на английском языке)», «Методика текстового
анализа. Корпусные методы исследования», полученные практические навыки – при освоении дисциплин «Практикум по проектированию и разработке лингвистических систем и компонентов»,
«Язык профессиональных коммуникаций (преподается на английском языке)».
5
№
1
2
3
4
5
Тематический план учебной дисциплины
Название раздела
Введение в корпусную лингвистику
История создания и типология англоязычных корпусов
Создание корпусов
Корпусы русского языка
Обзор компьютерных инструментов. Ис-
Всего
часов
20
20
18
18
24
Аудиторные часы
ПрактиЛекСемические
ции
нары
занятия
6
8
Самостоятельная
работа
8
6
6
6
6
6
8
6
6
8
6
6
8
4
Национальный исследовательский университет «Высшая школа экономики»
Рабочая программа дисциплины «Корпусная лингвистика и компьютерные инструменты» для образовательной программы 45.03.03 «Фундаментальная и прикладная лингвистика»
уровня подготовки бакалавр
пользование корпусов
Всего
100
Количество зачетных единиц на дисциплину – 4.
6
32
32
Формы контроля знаний студентов
Тип кон- Форма контроля
троля
Итоговый Экзамен
6.1
36
1 год
1
2
+
Параметры
Устный, 2 вопроса на билет, 30 минут на подготовку,
10 минут на ответ. Дополнительные вопросы в случае
спорной оценки (без времени на подготовку)
Критерии оценки знаний, навыков
Студент должен продемонстрировать знание основных понятий и актуальных проблем корпусной лингвистики в объеме, достаточном для осуществления практической деятельности в области корпусных технологий и исследований. Студент должен обладать навыками эффективного использования компьютерных инструментов, изучаемых в рамках дисциплины.
Оценки по всем формам текущего контроля выставляются по 10-ти балльной шкале.
Несколько студентов освобождаются "автоматом" при условии 80% посещения лекций и отличной работы на семинарах. "Автомат" подразумевает оценку не ниже 8 баллов.
6.2
Порядок формирования оценок по дисциплине
Преподаватель оценивает работу студентов на практических занятиях: результаты проверочных работ, активность в дискуссиях, ответы на вопросы преподавателя, выполнение мини-проектов
и командных заданий. Оценки за работу на практических занятиях преподаватель выставляет в рабочую ведомость. Накопленная оценка по 10-ти балльной шкале (среднее арифметическое) за работу на практических занятиях определяется перед итоговым контролем.
Результирующая оценка за дисциплину рассчитывается следующим образом:
Орезульт = 0,5 * Онакопл + 0,5 * Оэкз
Способ округления – арифметический.
На пересдаче студенту не предоставляется возможность получить дополнительный балл для
компенсации оценки за текущий контроль.
7
Содержание дисциплины
1. Раздел 1. Введение в корпусную лингвистику
(3 ч. лекций, 1 ч. практ. занятий)
Основные понятия корпусной лингвистики. Понятие корпуса. Корпус и текст. Корпусная
лингвистика как дисциплина. Виды и свойства корпусов. Web as a corpus. Применение корпусов. Значение корпусов. Корпусы и компьютерная лингвистика. Разметка. Конкорданс,
конкордансер. Критика корпусной лингвистики.
5
Национальный исследовательский университет «Высшая школа экономики»
Рабочая программа дисциплины «Корпусная лингвистика и компьютерные инструменты» для образовательной программы 45.03.03 «Фундаментальная и прикладная лингвистика»
уровня подготовки бакалавр
2. Раздел 2. История создания и типология англоязычных корпусов
(8 ч. лекций, 4 ч. практ. занятий)
Создание англоязычных корпусов – периодизация. Первые машиночитаемые корпусы. Брауновский корпус. Ланкастерско-Осло-Бергенский корпус. Синтаксически размеченные корпусы. The Penn Treebank. Британский национальный корпус. Международный корпус английского языка. Корпус «Банк английского». Корпус современного американского английского.
Оксфордский корпус английского. Корпусы TenTen. Корпус Google Books Ngram. Корпусы с
семантической разметкой. FrameNet. Groningen Meaning Bank.
3. Раздел 3. Создание корпусов
(1 ч. лекций, 2 ч. практ. занятий)
Проектирование корпусов. Техпроцесс создания корпусов. Машинная обработка текстов: токенизация, лемматизация, стемминг, парсинг. Автоматическая разметка. Проблема авторских
прав. Стандартизация. Техники бутстрэпинга.
4. Раздел 4. Корпусы русского языка
(4 ч. лекций, 3 ч. практ. занятий)
Уппсальский корпус русского языка. Тюбингенские корпусы русских текстов. Компьютерный корпус текстов русских газет конца XX века. Система Диктум-1. Большой Корпус русского языка. Машинный фонд русского языка. Корпус русского литературного языка. ХАНКО. НКРЯ. OpenCorpora.
5. Раздел 5. Обзор компьютерных инструментов. Использование корпусов
(2 ч. лекций, 10 ч. практ. занятий)
Закон Ципфа. Визуализация синтаксических деревьев с phpSyntaxTree. Web-интерфейсы к
корпусам (COCA, НКРЯ). Регулярные выражения. NLTK – библиотека для Python. Конкордансер AntConc. Корпусные менеджеры. Xaira. CQP. DDC. Manatee/Bonito. GATE. Sketch Engine. Game with a purpose. BootCaT.
8
Образовательные технологии
Проектная деятельность, практическая работа с компьютерными инструментами, компьютерные симуляции, мастер-классы экспертов в корпусной лингвистике.
Методические указания студентам
Самостоятельная работа студентов осуществляется в соответствии с «Методическими рекомендациями по организации самостоятельной работы студентов НИУ ВШЭ – Нижний Новгород»,
утвержденными УМС от 30.04.2014, протокол № 4.
8.1
9
9.1
Оценочные средства для текущего контроля и аттестации студента
Тематика заданий текущего контроля
1) корпусная лингвистика
2) корпус
3) общий (общеязыковой) корпус
4) специализированный корпус
5) параллельный корпус
6) метаданные
6
Национальный исследовательский университет «Высшая школа экономики»
Рабочая программа дисциплины «Корпусная лингвистика и компьютерные инструменты» для образовательной программы 45.03.03 «Фундаментальная и прикладная лингвистика»
уровня подготовки бакалавр
7)
8)
9)
10)
11)
12)
13)
14)
15)
16)
17)
18)
19)
20)
21)
22)
23)
24)
25)
26)
27)
28)
29)
30)
31)
32)
33)
34)
35)
36)
37)
38)
39)
40)
41)
42)
43)
44)
45)
46)
47)
48)
49)
50)
51)
52)
53)
54)
55)
аннотации
тэг
репрезентативность корпуса
"Googleology"
конкорданс
тип
токен
лексема
лемма
словоформа
ключевое слово
коллокация
коллигация
парсинг
время создания Брауновского корпуса
количество слов в Брауновском корпусе
состав Брауновского корпуса
основной недостаток Брауновского корпуса
суть закона Ципфа применительно к частотности слов
что общего между более чем половиной слов в Брауновском корпусе
какой корпус стал моделью для Ланкастерско-Осло-Бергенского корпуса
сколько компьютерных корпусов было разработано к 1990 г. (приблизительно)
treebank
NP (синтаксис)
VP (синтаксис)
время создания Penn Treebank
количество слов в Penn Treebank
состав Penn Treebank
как кодируется иерархическая структура в Penn Treebank
количество слов в British National Corpus
соотношение устной и письменной речи в BNC
время создания BNC
разметка в BNC
тэггер
корпусный менеджер / менеджер корпусов
Xaira
цель проекта International Corpus of English
количество слов в каждом подкорпусе ICE
соотношение устной и письменной речи в ICE
виды разметки в ICE
количество слов в COCA
количество жанров в COCA
wildcard
n-грамма
синхронический корпус
диахронический корпус
национальный корпус
мониторный (мониторинговый, динамический) корпус
сбалансированный корпус
7
Национальный исследовательский университет «Высшая школа экономики»
Рабочая программа дисциплины «Корпусная лингвистика и компьютерные инструменты» для образовательной программы 45.03.03 «Фундаментальная и прикладная лингвистика»
уровня подготовки бакалавр
56) Sketch Engine
57) как собираются большие корпуса (>2 млрд. слов)
58) недостатки корпусов, сформированных из "очищенных" веб-страниц
59) как происходит автоматическое создание специализированных корпусов
60) чем отличается термин от ключевого слова
61) какие тексты содержатся в Google Books Ngram Corpus
62) вид представления данных в GBNC
63) виды разметки в GBNC
64) аболютная частота
65) относительная частота
66) к какому виду корпусов относятся FrameNet и GMB
67) на какой теории основан проект FrameNet
68) семантический фрейм
69) "глубина" разметки FrameNet
70) количество семантических фреймов во FrameNet
71) количество аннотированных примеров во FrameNet
72) назовите не менее 4 видов разметки в Groningen Meaning Bank
73) количество токенов в последнем релизе GMB
74) бутстрэппинг - основная идея
75) game with a purpose
76) примеры экстралингв. разметки (не менее 3)
77) главное отличие стемминга от лемматизации
78) BootCaT
79) на основе чего BootCaT отбирает тексты
80) что использует BootCaT для получения web-страниц
81) Уппсальский корпус - объем
82) Уппсальский корпус - тексты
83) есть ли treebank на русском языке?
84) Машинный фонд русского языка - тексты
85) акцентуированный корпус
86) Хельсинкский аннотированный корпус русского языка - объем
87) Хельсинкский аннотированный корпус русского языка - виды разметки
88) НКРЯ - объем основного корпуса
89) НКРЯ - назовите не менее 4 подкорпусов
90) НКРЯ - хронологический диапазон текстов
91) OpenCorpora - объем
92) OpenCorpora - главное преимущество
93) как переводчики используют паралл. корпусы
94) как комп. лингвисты используют паралл. корпусы
95) выравнивание / стыковка
96) параллельный корпус в НКРЯ - структура
97) LF aligner
98) проект Татоэба
99) российск. проект по созд. устных корпусов на русском и др. языках
100) корпус устной речи в НКРЯ - состав
101) COCA: walk как глагол
102) COCA: все словоформы walk
103) COCA: синонимы к walk
104) COCA: все слова, начинающиеся на walk (walker, walking, ...)
8
Национальный исследовательский университет «Высшая школа экономики»
Рабочая программа дисциплины «Корпусная лингвистика и компьютерные инструменты» для образовательной программы 45.03.03 «Фундаментальная и прикладная лингвистика»
уровня подготовки бакалавр
105) COCA: биграммы walk + любое слово
106) COCA: биграммы walk + любое слово, кроме away
107) COCA: walk или stroll
108) COCA: walk в конце повествовательного предложения
109) AntConc
110) AntConc: что нужно для корректной работы с текстовыми файлами
111) AntConc: для чего кнопка Clone Results
112) AntConc: как экспортировать результаты во внешний файл
113) AntConc: Concordance Plot (для чего)
114) AntConc: File View (для чего)
115) AntConc: Clusters (для чего)
116) AntConc: N-Grams (для чего)
117) AntConc: Collocates (для чего)
118) AntConc: Word List (для чего)
119) AntConc: Keyword List (для чего)
120) откуда AntConc "знает", какие слова являются ключевыми
121) AntConc: "негативные" ключевые слова
122) может ли AntConc определять леммы слов
123) возможности TreeTagger для текстов на русском языке
124) рекомендуемый текстовый редактор
125) Python: открыть текстовый файл (без чтения)
126) Python: прочитать открытый текстовый файл
127) Python: сохранить строку в текстовый файл
128) Python: разбить текст на отдельные строки
129) Python: разбить текст на "слова"
130) Python: "собрать" текст из отдельных строк
131) Python: "собрать" текст из отдельных слов
132) Python: структура данных для слов/строк в определенном порядке
133) Python: структура данных для набора уникальных словоформ
134) Python: структура данных для лемм и соотв. словоформ
9.2
Вопросы для оценки качества освоения дисциплины
1. Основные понятия корпусной лингвистики. Понятие корпуса. Корпус и текст.
2. Корпусная лингвистика как дисциплина. Критика корпусной лингвистики.
3. Виды и свойства корпусов. Web as a corpus.
4. Применение корпусов. Значение корпусов. Корпусы и компьютерная лингвистика.
5. Разметка и метаданные. Конкорданс, конкордансер.
6. Создание англоязычных корпусов – периодизация.
7. Первые машиночитаемые корпусы. Брауновский корпус. Ланкастерско-Осло-Бергенский
корпус.
8. Синтаксически размеченные корпусы. The Penn Treebank.
9. Британский национальный корпус.
10. Международный корпус английского языка. Корпус «Банк английского».
11. Корпус современного американского английского.
12. Оксфордский корпус английского. Корпусы TenTen.
13. Корпус Google Books Ngram.
14. Корпусы с семантической разметкой. FrameNet. Groningen Meaning Bank.
15. Проектирование корпусов. Техпроцесс создания корпусов.
16. Машинная обработка текстов: токенизация, лемматизация, стемминг, парсинг.
9
Национальный исследовательский университет «Высшая школа экономики»
Рабочая программа дисциплины «Корпусная лингвистика и компьютерные инструменты» для образовательной программы 45.03.03 «Фундаментальная и прикладная лингвистика»
уровня подготовки бакалавр
17. Автоматическая разметка. Техники бутстрэпинга. Автоматическая семантическая разметка.
USAS.
18. Проблема авторских прав. Стандартизация.
19. Уппсальский корпус русского языка. Машинный фонд русского языка. Хельсинкский аннотированный корпус (ХАНКО).
20. НКРЯ.
21. OpenCorpora.
22. Параллельные корпусы – возможности и применение. Параллельный подкорпус НКРЯ. Проект Татоэба.
23. Web-интерфейсы к корпусам (COCA, НКРЯ) – возможности, достоинства и недостатки.
24. Регулярные выражения. Обработка текста с помощью языка программирования Python (2
или 3).
25. Корпусные менеджеры. AntConc. Xaira. Sketch Engine.
26. Достоинства и недостатки корпусов, собранных автоматически из сети Интернет. BootCaT.
10 Учебно-методическое и информационное обеспечение дисциплины
10.1 Основная литература
1. McEnery T., Hardie A., Corpus Linguistics: Method, Theory and Practice. Cambridge University Press, 2012.
10.2 Дополнительная литература
1. Копотев М., Введение в корпусную лингвистику. Учебное пособие для студентов филологических и лингвистических специальностей университетов. Прага, Animedia
Company, 2014.
10.3 Литература для самостоятельного изучения студентами
1. Aston G., Burnard L. The BNC handbook: exploring the British National Corpus with
SARA. – Capstone, 1998.
2. Baker C. F., Fillmore C. J., Lowe J. B. The berkeley framenet project //Proceedings of the
36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics-Volume 1. – Association for Computational Linguistics, 1998. – С. 86-90.
3. Basile V. et al. Developing a large semantically annotated corpus // LREC. – 2012. – Т. 12.
– С. 3196-3200.
4. Baroni M., Bernardini S. BootCaT: Bootstrapping Corpora and Terms from the Web //
LREC. –2004.
5. Cheng W. Exploring Corpus Linguistics – Language in Action. – Routledge, 2012.
6. Davies M. The 385+ million word Corpus of Contemporary American English (1990–
2008+): Design, architecture, and linguistic insights //International Journal of Corpus Linguistics. – 2009. – Т. 14. – №. 2. – С. 159-190.
7. Greenbaum S. (ed.). Comparing English worldwide: The international corpus of English. –
Clarendon Press, 1996.
8. Jarvinen T. Annotating 200 million words: the Bank of English project //Proceedings of the
15th conference on Computational linguistics-Volume 1. – Association for Computational
Linguistics, 1994. – С. 565-568.
9. Johansson S. Some aspects of the development of corpus linguistics in the 1970s and 1980s
// Ludeling A., Kyto M., eds. Corpus Linguistics. An International Handbook. Volume 1. –
Berlin & New York: Walter de Gruyter, 2008. – С. 33-53.
10
Национальный исследовательский университет «Высшая школа экономики»
Рабочая программа дисциплины «Корпусная лингвистика и компьютерные инструменты» для образовательной программы 45.03.03 «Фундаментальная и прикладная лингвистика»
уровня подготовки бакалавр
10. Johansson S., Leech G. N., Goodluck H. Manual of Information to Accompany the Lancaster-Oslo/Bergen Corpus of British English, for Use with Digital Computer. – Department of
English, University of Oslo, 1978.
11. Kilgarriff A. et al. Itri-04-08 the sketch engine //Information Technology. – 2004. – Т. 105.
– С. 116.
12. Kucera H., Francis W. N. Computational analysis of present-day American English //
Brown, Providence, 1967.
13. Leech G., Rayson P., Wilson A. Word frequencies in written and spoken English: based on
the British National Corpus. – Longman, 2001.
14. Lin Y. et al. Syntactic annotations for the google books ngram corpus //Proceedings of the
ACL 2012 System Demonstrations. – Association for Computational Linguistics, 2012. –
С. 169-174.
15. Marcus M. P., Marcinkiewicz M. A., Santorini B. Building a large annotated corpus of English: The Penn Treebank //Computational linguistics. – 1993. – Т. 19. – №. 2. – С. 313-330.
16. O'Keeffe A., McCarthy M. (ed.). The Routledge handbook of corpus linguistics. –
Routledge, 2010.
17. Sinclair J. M. Preliminary recommendations on text typology. 1996. EAGLES Document
EAG-TCWG-TTYP/P.
18. Tognini-Bonelli E. Corpus linguistics at work. – John Benjamins Publishing, 2001.
19. Захаров В.П., Богданова С.Ю. Корпусная лингвистика. – Иркутск, ИГЛУ, 2011.
20. Грудева Е.В. Корпусная лингвистика. – М.: ФЛИНТА, 2012.
21. Национальный корпус русского языка: 2003—2005. Сборник статей. М.: Индрик,
2005.
22. Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы.
СПб.: Нестор-История, 2009.
23. Плунгян В. А. Зачем мы делаем Национальный корпус русского языка? // Отечественные записки. 2005. № 2, 296—308.
24. Резникова Т. И. Корпуса славянских языков в интернете: Обзор ресурсов // Die Welt
der Slaven LIII, 2008, 10—38.
25. Шмелёв А. Д. Языковые факты и корпусные данные // Русский язык в научном освещении, 2010, 19 (1), 236—265.
11 Материально-техническое обеспечение дисциплины
Для лекций и практических занятий используется компьютер/ноутбук, проектор, экран. Для
практических занятий студентам необходимо иметь цифровые устройства (ноутбуки, планшеты) с
доступом в Интернет. Возможно использование стационарных компьютеров, подключенных к Интернету, в компьютерном классе.
Автор
Малафеев А.Ю.
11
Скачать