Национальный исследовательский университет Высшая школа экономики Н.Новгород Программа дисциплины «Автоматическая обработка естественного языка» для 035800.62 Фундаментальная и прикладная лингвистика подготовки бакалавра Правительство Российской Федерации Нижегородский филиал Федерального государственного автономного образовательного учреждения высшего профессионального образования "Национальный исследовательский университет "Высшая школа экономики" Факультет Бизнес-информатики и прикладной математики Программа дисциплины Автоматическая обработка естественного языка для направления 035800.62 Фундаментальная и прикладная лингвистика подготовки бакалавра Автор программы: Поршнев А.В., кандидат психол.наук, aporshnev@hse.ru Одобрена на заседании кафедры прикладной математики и информатики Зав. кафедрой Калягин В.А. «___»____________ 2014 г Рекомендована секцией УМС «Прикладная математика» «___»____________ 2014 г Председатель Калягин В.А. Утверждена УМС НИУ ВШЭ – Нижний Новгород «___»_____________2014 г. Председатель Петрухин Н.С. Нижний Новгород, 2014 Настоящая программа не может быть использована другими подразделениями университета и другими вузами без разрешения кафедры-разработчика программы. Национальный исследовательский университет Высшая школа экономики Н.Новгород Программа дисциплины «Автоматическая обработка естественного языка» для 035800.62 Фундаментальная и прикладная лингвистика подготовки бакалавра Область применения и нормативные ссылки Настоящая программа учебной дисциплины устанавливает минимальные требования к знаниям и умениям студента и определяет содержание и виды учебных занятий и отчетности. Программа предназначена для преподавателей, ведущих дисциплину «Автоматическая обработка текстов», учебных ассистентов и студентов направления подготовки 010400.68 Прикладная математика и информатика уровень подготовки магистр. Программа разработана в соответствии с: - Образовательным стандартом ФГАУ ВПО НИУ-ВШЭ по направлению Фундаментальная и прикладная лингвистика (уровень подготовки: "БАКАЛАВР"). - Рабочим учебным планом университета по направлению подготовки 035800.62 Фундаментальная и прикладная лингвистика, утвержденным в 2014г. Распространение информационных сетей и высокая скорость накопления текстовой информации в сети Интернет приводит к необходимости разработке приложений позволяющих автоматизировать обработку текстов на естественном языке. Автоматизация может быть использована для сбора и фильтрация данных, извлечение знаний, реферирование, аннотирование, машинного перевода и т.п. Цели освоения дисциплины Курс посвящен рассмотрению различных подходов к автоматической обработке естественного языка. Целью освоения дисциплины «Автоматическая обработка естественного языка» является изучение современных подходов к анализу и обработки текстовой информации. Компетенции обучающегося, формируемые в результате освоения дисциплины В результате освоения дисциплины студент должен: Уметь применять теорию формальных понятий Решать задачу би-кластеризации и поиска дубликатов Знать и уметь применять базовые алгоритмы: расстояние между словами, наивный Байес алгоритм Уметь оценивать эффективность алгоритмов Изучение дисциплины направлено на дальнейшее совершенствование и развитие общих компетенций студента. В результате освоения дисциплины студент осваивает следующие компетенции: Компетенция Способен порождать принципиально новые идеи и продукты, обладает креа-тивностью, инициа- Код НИУ СЛКМ8 Дескрипторы – основные признаки освоения (показатели достижения результата) Демонстрирует умение применять методы анализа текста для создания новых приложений, в т.ч. в сети Интернет Формы и методы обучения, способствующие формированию и развитию компетенции Презентации и обсуждения на семинарских занятиях Национальный исследовательский университет Высшая школа экономики Н.Новгород Программа дисциплины «Автоматическая обработка естественного языка» для 035800.62 Фундаментальная и прикладная лингвистика подготовки бакалавра Компетенция Код НИУ Дескрипторы – основные признаки освоения (показатели достижения результата) тивностью Способен анализировать и ИК- Может прочитать и обсуждать воспроизводить смысл М2.1пм статью по тематике курса на междисциплинарных теки английском языке стов с использованием языка и аппарата прикладной математики. Способен создавать межИК- Умеет написать эссе 300-500 дисциплинарные тексты с М2.2пм слов по тематике курса с исиспользованием языка и и пользованием литературы на аппарата прикладной маанглийском языке. тематики. Способен публично предИК- Демонстрирует умение подгоставлять результаты проМ2.5 товить и выступить с презентафессиональной деятельноций (в PowerPoint, Prezi, Open сти (в том числе с испольOffice). В дополнении к литеразованием информационтуре курса, в презентации исных технологий. пользует самостоятельно Способен осуществлять найденную литературу целенаправленный многоИКкритериальный поиск инМ4.1 формации о новейших научных и технологических достижениях в сети Интернет и в других источниках. Способен использовать в ИК- Демонстрирует знания, полупрофессиональной деяМ7.1пм ченные в ходе курса и умение тельности знания в облаи, применять математические мости естественных наук, мадели, программные решения, тематики и информатики, собственные программы для понимание основных факрешения задач обработки тектов, концепций, принципов стовой информации теорий, связанных с прикладной математикой и информатикой. Способен строить и реИКшать математические мо- М7.2пм дели в соответствии с и, направлением подготовки 3 Формы и методы обучения, способствующие формированию и развитию компетенции Презентации и обсуждения на семинарских занятиях Написание статей по проблемам курса Выступление с презентациями на семинарах Решение задач на семинарах Национальный исследовательский университет Высшая школа экономики Н.Новгород Программа дисциплины «Автоматическая обработка естественного языка» для 035800.62 Фундаментальная и прикладная лингвистика подготовки бакалавра Компетенция Код НИУ Дескрипторы – основные признаки освоения (показатели достижения результата) и специализацией. Способен понимать и приИК- Демонстрирует знания, полуменять в исследовательМ7.3пм ченные в ходе курса и умение ской и прикладной деяи, применять математические мотельности современный дели, программные решения, математический аппарат. собственные программы для Способен в составе научИК- решения задач обработки текно-исследовательского и М7.4пм стовой информации производственного коли, лектива решать задачи профессиональной деятельности в соответствии с профилем подготовки, общаться с экспертами в других предметных областях. Способен применять в исИКследовательской и приМ7.5пм кладной деятельности сои, веменные языки программирования и языки манипулирования данными, операционные системы, электронные библиотеки и пакеты программ, сетевые технологии и т.п. Формы и методы обучения, способствующие формированию и развитию компетенции Решение задач на семинарах Место дисциплины в структуре образовательной программы Настоящая дисциплина относится к вариативной части цикла дисциплин программы. Изучение данной дисциплины базируется на знаниях по комбинаторике и теории вероятностей, математической логике и дискретной математике. В результате освоения учебной дисциплины студенты должны продемонстрировать не только понимание алгоритмов автоматической обработки текстов, но способности применить изученные методы для решения широкого спектра задач. 4 Национальный исследовательский университет Высшая школа экономики Н.Новгород Программа дисциплины «Автоматическая обработка естественного языка» для 035800.62 Фундаментальная и прикладная лингвистика подготовки бакалавра Тематический план учебной дисциплины № 1 2 3 Всего часов Название раздела Тема 1. Теория формальных понятий и ее применение в задачах по автоматической обработке текстов Тема 2. Базовые алгоритмы автоматической обработки текстов. Тема 3. Оценка эффективности алгоритмов Итого Формы контроля знаний студентов Тип конФорма кон1 год троля троля 2 Текущий Контрольная 5 (неделя) работа Итоговый Зачет + 6 Аудиторные часы Се- ПрактиЛекмические ции нары занятия 6 5 Самостоятельная работа 20 7 6 5 20 7 108 2 14 4 14 40 80 Параметры Письменная работа, 60 мин. Выполнение задачи на принадлежности сообщений к 3м классам Устный зачет 30 мин. Критерии оценки знаний, навыков Текущая оценка рассчитывается как среднее из оценок: выступление с презентацией, участие в дискуссиях на семинаре, оценки за контрольную работу. Выступление с презентацией оценивается двумя оценками (А и Б): А. Подготовка презентации. Владеет культурой мышления, способен к обобщению, анализу, восприятию информации, постановке цели и выбору путей ее достижения, способен логически верно, аргументированно и ясно строить устную и письменную речь, способен к саморазвитию, повышению своей квалификации и мастерства, способен, используя отечественные и зарубежные источники информации, собрать необходимые данные проанализировать их и подготовить информационный обзор и/или аналитический отчет, способен использовать для решения коммуникативных задач современные технические средства и информационные технологии. Оценивается качество материала презентации: использование информационных источников (3 балла), нацеленность на аудиторию (3 балла), насколько презентация в Power Point (OpenOffice) проработана (3 балла), бонусный балл за блестяще подготовленную презентацию (1 балл), итого максимум 10 баллов. Б. Проведение презентации. Способен логически верно, аргументированно и ясно строить устную и письменную речь, способен использовать для решения коммуникативных задач современные технические средства и информационные технологии. Оценивается качество процесса презентации: умение заинтересовать аудиторию (3 балла), устная речь оратора (3 балла), взаимодействие с аудиторией (3 балла), бонусный балл за блестяще подготовленную презентацию (1 балл), итого максимум 10 баллов. 5 Национальный исследовательский университет Высшая школа экономики Н.Новгород Программа дисциплины «Автоматическая обработка естественного языка» для 035800.62 Фундаментальная и прикладная лингвистика подготовки бакалавра Участие в дискуссии на семинаре Владеет культурой мышления, способен к обобщению, анализу, восприятию информации, постановке цели и выбору путей ее достижения, способен логически верно, аргументировано и ясно строить устную и письменную речь , готов к кооперации с коллегами, работе в коллективе, способен к саморазвитию, повышению своей квалификации и мастерства Способен критически оценивать свои достоинства и недостатки, наметить пути и выбрать средства развития достоинств и устранения недостатков. Оценка за семинар: активность на семинаре (3 балла), способность критически обработать информацию (3 балла); умение привлечь необходимые знания для участия в дискуссии (3 балла), бонусный балл за блестящий ответ на семинаре (1 балл), итого максимум 10 баллов. Оценки по всем формам текущего контроля выставляются по 10-ти балльной шкале. Содержание дисциплины Тема 1. Теория формальных понятий и ее применение в задачах по автоматической обработке текстов Объектно-признаковые данные и формальные контексты, операторы Галуа, решетки формальных понятий. Признаковые импликации. Concept Explorer – программная система анализа данных на основе анализа формальных понятий. Ассоциативные правила (АП) и задача анализа данных о покупках и её роль в анализе данных. Меры АП: поддержка и достоверность. Основная литература 1. Большакова, Е. И., Клышинский, Э. С., Ландэ, Д. В., Носков А.А., Пескова О.В., & Ягунова Е.В. (2011). Автоматическая обработка текстов на естественном языке и компьютерная лингвистика. Москва: МИЭМ. 2. 3. 4. 5. Дополнительная литература B. Ganter and R. Wille, Formal Concept Analysis: Mathematical Foundations, Springer, 1999. S.Yevtushenko. Concept Explorer. The User Guide, 2006 (поставляется в составе ПО Concept Expolorer). Биркгоф Г. Теория решеток. - M.: Наука, 1984. С. A. Евтушенко. Система анализа данных "Concept Explorer". Труды 7-ой национальной конференции по искусственному интеллекту КИИ-2000. – М.:Физмалит, 2000, стр. 127-134, Тема 2. Базовые алгоритмы автоматической обработки текстов. Задачи фильтрации спама и классификации (категоризации) текстов. Алгоритмы автоматической обработки текстов: "наивной" байесовской классификации, алгоритм Роккио, kближайших соседей, деревьев принятия решений, k-средних, DBSCAN, нечёткий алгоритм ссредних. Применение алгоритмов обработки текстов для решения задач поиска мнений (opinion mining) и анализа настроений (sentiment analysis). Наивная байесовская классификация в системе RapidMiner. Реализация наивной байесовской классификации на языке Python. 6 Национальный исследовательский университет Высшая школа экономики Н.Новгород Программа дисциплины «Автоматическая обработка естественного языка» для 035800.62 Фундаментальная и прикладная лингвистика подготовки бакалавра Основная литература. 1. Большакова, Е. И., Клышинский, Э. С., Ландэ, Д. В., Носков А.А., Пескова О.В., & Ягунова Е.В. (2011). Автоматическая обработка текстов на естественном языке и компьютерная лингвистика. Москва: МИЭМ. 2011 Дополнительная литература. 1. Николенко, С.И., Тулупьев, А.Л., Самообучающиеся системы. – М.: МЦНМО, 2009. – 288 с. (Глава 5) 2. Сегаран Т. Программируем коллективный разум. М.: Символ-Плюс, 2008. (Глава 6) Тема 3. Оценка эффективности алгоритмов Сравнение с «эталоном», оценки точности и полноты. F-мера. Валидация. Другие характеристики алгоритмов: эффективность (efficiency), продуктивность (productivity), гибкость (flexibility) устойчивость (robustness), масштабируемость (scalability), многомодальность (multimodality), разреженность данных (data sparseness), многоязычность (multilinguality). Основная литература. 1. Большакова, Е. И., Клышинский, Э. С., Ландэ, Д. В., Носков А.А., Пескова О.В., & Ягунова Е.В. (2011). Автоматическая обработка текстов на естественном языке и компьютерная лингвистика. Москва: МИЭМ. Дополнительная литература. 1. Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. — Вильямс, 2011. — ISBN 978-5-8459-1623-5 2. П. И. Браславский, М. В. Губин, Б. В. Добров, В. Ю. Добрынин, И. Е. Кураленок, И. С. Некрестьянов, Е. Ю. Павлова, И. В. Сегалович. «Инициативный проект Российского семинара по оценке методов информационного поиска (РОМИП)». Труды Диалог’2003, Москва, июнь 2003 3. Агеев М.С., Губин М.В., Добров Б.В., Кураленок И.Е., Некрестьянов И.С., Плешко В.В., Сегалович И.В., Шабанов В.И. «Российский семинар по оценке методов информационного поиска (РОМИП) в 2004 году» 4. Александр Сафронов. РОМИП-2008 глазами участника http://alsafr.livejournal.com/7802.html, http://romip.ru/romip2008/2008_03_headhunter.pdf Образовательные технологии На семинарах проводятся дискуссии на основе обсуждения статей или глав из книг написанных на русском и английском языках. Оценочные средства для текущего контроля и аттестации студента Вопросы для оценки качества освоения дисциплины Задание 1. Анализ формальных понятий Придумать содержательный контекст размерами не больше 10х5, но не меньше 4х4. С помощью программы Concept Explorer построить решетку понятий по контексту пункта 1 и изучить ее диаграмму. Сколько всего обнаружено понятий? Какие из найденных понятий кажутся вам наиболее осмысленными? Попробуйте их охарактеризовать словами. Найдите пример двух понятий, одно из которых более общее, чем другое. Найдите два понятия, не состоящие в отношении “быть более общим”, т.е. несравнимые понятия. Как понятия для этих двух являются инфимумом (наибольшее из соседей снизу) и супремумом (наименьшее из их 1.1 7 Национальный исследовательский университет Высшая школа экономики Н.Новгород Программа дисциплины «Автоматическая обработка естественного языка» для 035800.62 Фундаментальная и прикладная лингвистика подготовки бакалавра соседей сверху)? Применить к построенному контексту процедуру исследование признаков (Attribute Exploration). Какие понятия появились в результате такого пополнения? Задание 2. Применение наивного Байесовского алгоритма. 1. Создаем файл, содержащий мнения и оценки. Найдите 20 предложений содержащие мнения для создания корпуса (минимум 20 мнений), даем оценки для каждого мнения (теперь делим на три группы (положительные, отрицательные, нейтральные) Мнения по книгам, фильмам, камерам есть на imho.net или других Интернет-сайтах 2. Создаем второй файл с тестовой выборкой мнений (минимум 12 мнений, из которых 6 положительных, 3 отрицательных и 3 негативных ) 3. Строим модель и применяем ее для классификации. 4. Оцените качество построенной модели – полноту, точность и F-меру. Порядок формирования оценок по дисциплине 1. При получении результирующей оценки учитываются: среднее арифметическое оценки за участие в семинарах Осем , оценка за презентацию Опр , оценка за контрольную работу – Ок.р. 2. Вес оценок: Wк.р. = 0.2, Wпр=0.4, Wсем=0.4 3. Накопленная оценка за текущий контроль выставляется по следующей формуле Онакопленная = Wсем * Осем +Wк.р. * Ок.р. +Wпр. * Опр. Например, если у студента по 10-балльной шкале набраны следующие оценки: Осем = 6, Ок.р. = 6, Опр=4 то Отекущий = + Wсем * Осем +Wк.р. * Ок.р.+ Wпр. * Опр. = 5 4. Если студент согласен с накопленной оценкой Оитоговый = Онакопленная 5. Если студент не согласен с накопленной оценкой, то он может сдавать зачет (письменно). 6. Вес оценок: Wнакопленная= 0.6, Wзачет = 0.4 7. Результирующая оценка за итоговый контроль выставляется по следующей формуле, где Озачет – оценка за работу непосредственно на зачете Оитоговый = Wзачет·Озачет + Wнакопленная Онакопленная Например, если у студента по 10-балльной шкале набраны следующие оценки: Озачет = 9 Онакопленная=6, Оитоговый = 7 На пересдаче студенту предоставляется возможность получить дополнительный балл для компенсации оценки за текущий контроль. На зачете студент может получить дополнительный вопрос (дополнительную практическую задачу, решить к пересдаче домашнее задание), ответ на который оценивается в 1 балл. Таким образом, результирующая оценка за итоговый контроль в форме зачета, получаемая на пересдаче, выставляется по формуле Оитоговый = Wзачет·Озачет + Wнакопленная Онакопленная+Oдоп.вопрос В ведомость и зачетную книжку студента выставляется две оценки: например, "зачет" (7). 8 Национальный исследовательский университет Высшая школа экономики Н.Новгород Программа дисциплины «Автоматическая обработка естественного языка» для 035800.62 Фундаментальная и прикладная лингвистика подготовки бакалавра Учебно-методическое и информационное обеспечение дисциплины Основная литература 1. Большакова, Е. И., Клышинский, Э. С., Ландэ, Д. В., Носков А.А., Пескова О.В., & Ягунова Е.В. (2011). Автоматическая обработка текстов на естественном языке и компьютерная лингвистика. Москва: МИЭМ. Дополнительная литература 1. B. Ganter and R. Wille, Formal Concept Analysis: Mathematical Foundations, Springer, 1999. 2. S.Yevtushenko. Concept Explorer. The User Guide, 2006 (поставляется в составе ПО Concept Expolorer). 3. Агеев М.С., Губин М.В., Добров Б.В., Кураленок И.Е., Некрестьянов И.С., Плешко В.В., Сегалович И.В., Шабанов В.И. «Российский семинар по оценке методов информационного поиска (РОМИП) в 2004 году» 4. Александр Сафронов. РОМИП-2008 глазами участника http://alsafr.livejournal.com/7802.html, http://romip.ru/romip2008/2008_03_headhunter.pdf 5. Биркгоф Г. Теория решеток. - M.: Наука, 1984. 6. Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. — Вильямс, 2011. — ISBN 978-5-8459-1623-5 7. Николенко, С.И., Тулупьев, А.Л., Самообучающиеся системы. – М.: МЦНМО, 2009. – 288 с. (Глава 5) 8. П. И. Браславский, М. В. Губин, Б. В. Добров, В. Ю. Добрынин, И. Е. Кураленок, И. С. Некрестьянов, Е. Ю. Павлова, И. В. Сегалович. «Инициативный проект Российского семинара по оценке методов информационного поиска (РОМИП)». Труды Диалог’2003, Москва, июнь 2003 9. С. A. Евтушенко. Система анализа данных "Concept Explorer". Труды 7-ой национальной конференции по искусственному интеллекту КИИ-2000. – М.:Физмалит, 2000, стр. 127134, 10. Сегаран Т. Программируем коллективный разум. М.: Символ-Плюс, 2008. (Глава 6) Справочники, словари, энциклопедии, программные решения Weka 3 – Data Mining Software in Java (разработана командой специалистов Университета Вайкато, Новая Зеландия); http://www.cs.waikato.ac.nz/ml/weka/ Orange – Data Mining Fruitful & Fun (пакет создан лабораторией искусственного интеллекта Университета Любляни, Словения); http://www.ailab.si/orange/ QuDA – Data Miner’s Discovery Environment (разработана в техническом Университете города Дармштадта, Германия); http://sourceforge.net/projects/quda/ Coron System – платформа раскопок данных (разработана коллегами из группы Orpailleur в лаборатории LORIA Университета Нанси, Франция); http://coron.loria.fr/ Concept Explorer – один из основных инструментов анализа формальных понятий (разработана в техническом Университете города Дармштадта, Германия); http://conexp.sourceforge.net/ RSES2 – Rough Set Exploration System (разработана в институте математики Университета Варшавы, Польша). http://logic.mimuw.edu.pl/~rses/ Материально-техническое обеспечение дисциплины Используется компьютер и стандартный проектор. Автор Поршнев А.В. 9