Основные методы кластеризации и распознавания

реклама
МИНИСТЕРСТВО НАУКИ И ОБРАЗОВАНИЯ РОССИСКОЙ ФЕДЕРАЦИИ
Федеральное государственное автономное образовательное учреждение
высшего профессионального образования
«Московский физико-технический институт (государственный университет)»
МФТИ
«УТВЕРЖДАЮ»
Проректор по учебной и методической работе
_______________ Д.А. Зубцов
«___»______________ 20___ г.
Рабочая программа дисциплины (модуля)
по дисциплине:
по направлению:
профиль подготовки/
магистерская программа:
факультет:
кафедра:
курс:
квалификация:
Основные методы кластеризации и распознавания
Прикладные математика и физика (бакалавриат)
Компьютерные технологии и интеллектуальный анализ данных
управления и прикладной математики
проблем передачи информации и анализа данных
4
бакалавр
Семестр, формы промежуточной аттестации: 7 (Осенний) - Экзамен
Аудиторных часов: 51 всего, в том числе:
лекции: 34 час.
практические (семинарские) занятия: 0 час.
лабораторные занятия: 17 час.
Самостоятельная работа: 8 час. всего, в том числе:
задания, курсовые работы: 0 час.
Подготовка к экзамену: 30 час.
Всего часов: 89, всего зач.ед.: 2
Программу составил: С.М. Карпенко, ассистент
Программа обсуждена на заседании кафедры
14 мая 2014 года
СОГЛАСОВАНО:
Заведующий кафедрой
А.П. Кулешов
Декан факультета управления и прикладной математики
А.А. Шананин
Начальник учебного управления
И.Р. Гарайшина
1. Цели и задачи
Цель дисциплины
Изучение современных алгоритмов обучения машин и распознавания образов.
Задачи дисциплины
- подготовка к участию в научных семинарах, научно-технических конференциях и
симпозиумах, составлению научных обзоров, рефератов и библиографии по тематике
исследований;
- подготовка к оказанию консалтинговых услуг по данной тематике;
- подготовка к участию в международных проектах по тематике дисциплины;
- подготовка к участию в разработке корпоративной политики и мероприятиях в области
повышения социальной ответственности бизнеса перед обществом, включая разработку и
реализацию решений, направленных на поддержку социально-значимых проектов;
- совершенствование и расширение общенаучной базы.
2. Место дисциплины (модуля) в структуре образовательной программы бакалавриата (магистратуры
Дисциплина «Основные методы кластеризации и распознавания» включает в себя разделы,
которые могут быть отнесены к вариативной части цикла Б.1.
Дисциплина «Основные методы кластеризации и распознавания» базируется на дисциплинах:
Линейная алгебра;
Теория вероятностей;
Информатика.
Дисциплина «Основные методы кластеризации и распознавания» предшествует изучению дисциплин:
Математические основы машинного обучения;
Математические основы анализа многомерных данных;
Байесовские методы статистического оценивания оптимизации.
3. Перечень планируемых результатов обучения по дисциплине (модулю), соотнесенных с планируемыми результатами освоения образовательной
Освоение дисциплины «Основные методы кластеризации и распознавания» направлено на формирование следующих общекультурных, общепрофессиональных и профессиональных компетенций
бакалавра/магистра:
способность применять теорию и методы математики для построения качественных и
количественных моделей объектов и процессов в естественной сфере деятельности (ОПК-2);
способность понимать ключевые аспекты и концепции в области специализации (ОПК-3);
способность выбирать и применять подходящее оборудование, инструменты и методы
исследований для решения задач в избранной предметной области (ПК-3);
способность критически оценивать применимость применяемых методик и методов (ПК-4).
В результате освоения дисциплины обучающиеся должны
знать:
- методологию и терминологию дисциплины;
- механизмы формирования, представления и искажения изображений; принципы построения
алгоритмов обработки изображений;
2
- стандартные методы синтеза, восстановления, анализа, классификации и распознавания
изображений;
уметь:
- использовать новые знания и применять их в профессиональной деятельности;
- использовать современные теории, методы, системы и средства прикладной математики и
информационных технологий для решения научно-исследовательских и прикладных задач;
владеть:
- основами методологии научного познания и системного подхода при изучении различных
уровней организации материи, информации, пространства и времени.
4. Содержание дисциплины (модуля), структурированное по темам (разделам) с указанием отведенного на них количества академических часов и видов учебных занятий
4.1. Разделы дисциплины (модуля) и трудоемкости по видам учебных занятий
№
Тема (раздел) дисциплины
Введение
Обучение с учителем
Обучение без учителя и ана3
лиз данных
4
Вероятностный вывод
Итого часов
Общая трудоёмкость
1
2
Виды учебных занятий, включая самостоятельную работу
Практич.
Задания,
Лаборат.
Самост.
Лекции
(семинар.)
курсовые
работы
работа
занятия
работы
4
2
1
15
5
3
12
5
3
3
34
59 час., 1 зач.ед.
5
17
1
8
4.2. Содержание дисциплины (модуля), структурированное по темам (разделам)
Семестр: 7 (Осенний)
1. Введение.
Обучаемые (параметризованные) алгоритмы. Приложения. Данные, признаки. Обзор протоколов обучения: c учителем, без учителя, с подкреплением. Примеры.
Роль методов оптимизации. Нейронные сети, коннекционизм. Переобучение и регуляризация.
2. Обучение с учителем.
Логистическая регрессия, персептрон. Обратное распространение ошибки. Многослойный
персептрон. Разделяемые веса. Обучаемые метрики (сиамские сети). Конволютивные сети.
Машины опорных векторов (SVM). Квадратичная оптимизация. Нестандартные скалярные
произведения.
Простейший алгоритм обучения, использующий теорему Байеса.
Практические вопросы: сбор базы данных, выбор признаков, диагностика качества работы
алгоритма. Типы ошибок, характеристическая кривая (ROC-curve).
Деревья принятия решений, Алгоритм С4.5. Бустинг. Алгоритм Виолы-Джонса.
3. Обучение без учителя и анализ данных.
Кластеризация. Иерархическая кластеризация. Алгоритм K-средних. Модель смеси гауссиан.
Дискриминант Фишера. Алгоритм ожидания-максимизации (EM).
3
Сокращение размерности. Анализ главных компонент (PCA). Нейронные сети, осуществляющие нелинейный анализ главных компонент.
Пропущенные данные. Вероятностная трактовка PCA.
Факторный анализ, анализ независимых компонент.
4. Вероятностный вывод.
Скрытые Марковские модели. Марковские случайные поля. Общий взгляд на модели со
скрытыми параметрами.
5. Описание материально-технической базы, необходимой для осуществления образовательного процесса по дисциплине (модулю)
Учебная аудитория, оснащенная мультимедийным оборудованием (проектор или плазменная
панель), доской.
6. Перечень основной и дополнительной литературы, необходимой для освоения дисциплины
(модуля)
Основная литература
1. Мерков А.Б. Введение в методы статистического обучения // Материалы к учебнику:
http://www.recognition.mccme.ru/pub/RecognitionLab.html/sltb.pdf .
2. Bishop C. Pattern Recognition and Machine Learning. Springer, 2006. - 101 р.
3. Ветров Д.П., Кропотов Д.А. Алгоритмы выбора моделей и построения коллективных решений в задачах классификации, основанные на принципе устойчивости. М.: КомКнига,
2006. -112 с.
4. Дуда Р., Харт П. Распознавание образов и анализ сцен. М.: Мир, 1976. - 511 с.
7. Перечень учебно-методического обеспечения для самостоятельной работы обучающихся по
дисциплине (модулю)
1. Вьюгин В.В. Элементы математической теории машинного обучения // Учебное пособие.
M.: МФТИ-ИППИ РАН, 2012. - 323 с.
8. Перечень ресурсов информационно-телекоммуникационной сети "Интернет", необходимых
для освоения дисциплины (модуля)
9. Перечень информационных технологий, используемых при осуществлении образовательного процесса по дисциплине (модулю), включая перечень программного обеспечения и информационных справочных систем (при необходимости)
На лекционных занятиях используются мультимедийные технологии, включая демонстрацию
презентаций.
10. Методические указания для обучающихся по освоению дисциплины
Студент, изучающий дисциплину, должен, с одной стороны, овладеть общими понятийным
аппаратом, а с другой стороны, должен научиться применять теоретические знания на практике.
В результате изучения дисциплины студент должен знать основные определения, понятия,
аксиомы, методы доказательств.
4
Успешное освоение курса требует напряженной самостоятельной работы студента. В программе курса отведено минимально необходимое время для работы студента над темой. Самостоятельная работа включает в себя:
- чтение и конспектирование рекомендованной литературы;
- проработку учебного материала (по конспектам занятий, учебной и научной литературе),
подготовку ответов на вопросы, предназначенные для самостоятельного изучения, доказательство отдельных утверждений, свойств, решение задач;
- подготовка к экзамену.
Руководство и контроль за самостоятельной работой студента осуществляется в форме индивидуальных консультаций.
Важно добиться понимания изучаемого материала, а не механического его запоминания. При
затруднении изучения отдельных тем, вопросов следует обращаться за консультациями к лектору.
11. Фонд оценочных средств для проведения промежуточной аттестации по итогам обучения
Приложение.
5
ПРИЛОЖЕНИЕ
ФОНД ОЦЕНОЧНЫХ СРЕДСТВ
ДЛЯ ПРОВЕДЕНИЯ ПРОМЕЖУТОЧНОЙ АТТЕСТАЦИИ ОБУЧАЮЩИХСЯ
ПО ДИСЦИПЛИНЕ
«Основные методы кластеризации и распознавания»
1. Перечень типовых контрольных заданий, используемых для оценки знаний, умений, навыков
Перечень контрольных вопросов к экзамену:
1. Обучаемые (параметризованные) алгоритмы. Приложения. Данные, признаки.
2. Обзор протоколов обучения: c учителем, без учителя, с подкреплением. Примеры.
3. Роль методов оптимизации. Нейронные сети, коннекционизм. Переобучение и регуляризация.
4. Логистическая регрессия, персептрон.
5. Обратное распространение ошибки. Многослойный персептрон. Разделяемые веса. Обучаемые
метрики (сиамские сети). Конволютивные сети.
6. Машины опорных векторов (SVM). Квадратичная оптимизация. Нестандартные скалярные произведения.
7. Простейший алгоритм обучения, использующий теорему Байеса. Практические вопросы: сбор
базы данных, выбор признаков, диагностика качества работы ал-горитма. Типы ошибок, характеристическая кривая (ROC-curve).
8. Деревья принятия решений, Алгоритм С4.5.
9. Бустинг. Алгоритм Виолы-Джонса.
10. Кластеризация. Иерархическая кластеризация. Алгоритм K-средних. Модель смеси гауссиан.
Дискриминант Фишера.
11. Алгоритм ожидания-максимизации (EM).
12. Сокращение размерности. Анализ главных компонент (PCA). Нейронные сети, осуществляющие
нелинейный анализ главных компонент.
13. Пропущенные данные. Вероятностная трактовка PCA.
14. Скрытые Марковские модели.
2. Критерии оценивания
Оценка
Баллы
10
отлично
9
8
Критерии
Выставляется студенту, показавшему всесторонние, систематизированные, глубокие знания учебной программы дисциплины,
проявляющему интерес к данной предметной области, продемонстрировавшему умение уверенно и творчески применять их на
практике при решении конкретных задач, свободное и правильное
обоснование принятых решений.
Выставляется студенту, показавшему всесторонние, систематизированные, глубокие знания учебной программы дисциплины
и умение уверенно применять их на практике при решении конкретных задач, свободное и правильное обоснование принятых
решений.
Выставляется студенту, показавшему систематизированные,
6
7
хорошо
6
5
4
удовлетворительно
3
2
неудовлетворительно
1
глубокие знания учебной программы дисциплины и умение уверенно применять их на практике при решении конкретных задач,
правильное обоснование принятых решений, с некоторыми недочетами.
Выставляется студенту, если он твердо знает материал, грамотно и по существу излагает его, умеет применять полученные
знания на практике, но недостаточно грамотно обосновывает полученные результаты.
Выставляется студенту, если он твердо знает материал, грамотно и по существу излагает его, умеет применять полученные
знания на практике, но допускает в ответе или в решении задач
некоторые неточности.
Выставляется студенту, если он в основном знает материал,
грамотно и по существу излагает его, умеет применять полученные знания на практике, но допускает в ответе или в решении задач достаточно большое количество неточностей.
Выставляется студенту, показавшему фрагментарный, разрозненный характер знаний, недостаточно правильные формулировки базовых понятий, нарушения логической последовательности в изложении программного материала, но при этом он освоил
основные разделы учебной программы, необходимые для дальнейшего обучения, и может применять полученные знания по образцу в стандартной ситуации.
Выставляется студенту, показавшему фрагментарный, разрозненный характер знаний, допускающему ошибки в формулировках базовых понятий, нарушения логической последовательности в изложении программного материала, слабо владеет основными разделами учебной программы, необходимыми для
дальнейшего обучения и с трудом применяет полученные знания
даже в стандартной ситуации.
Выставляется студенту, который не знает большей части основного содержания учебной программы дисциплины, допускает
грубые ошибки в формулировках основных принципов и не умеет
использовать полученные знания при решении типовых задач.
Выставляется студенту, который не знает основного содержания учебной программы дисциплины, допускает грубейшие
ошибки в формулировках базовых понятий дисциплины и вообще
не имеет навыков решения типовых практических задач.
3. Методические материалы, определяющие процедуры оценивания знаний, умений, навыков
и (или) опыта деятельности
Экзамен проводится в устной форме.
При проведении устного экзамена обучающемуся предоставляется 30 минут на подготовку. Опрос
обучающегося по билету на устном экзамене не должен превышать двух астрономических часов.
Во время проведения экзамена обучающиеся могут пользоваться программой дисциплины, а также
справочной литературой, вычислительной техникой и проч.
7
Скачать