ОМВС2 - Высшая школа экономики

реклама
Правительство Российской Федерации
Государственное образовательное бюджетное учреждение
высшего профессионального образования
Государственный университет –
Высшая школа экономики
Факультет БИЗНЕС-ИНФОРМАТИКИ
Программа дисциплины
«Обучение машин и восстановление зависимостей»
для направления 010500.68 «Прикладная математика и информатика»
подготовки магистров
А.И. Михальский (mpoctok@narod.ru)
Рекомендована секцией УМС
«Прикладная математика
и информатика»
Одобрена на заседании кафедры
Анализа данных
и искусственного интеллекта
Председатель
__________________ Кузнецов С.О.
«_____» __________________ 200___ г.
Зав. кафедрой
__________________ Кузнецов С.О.
«_____» __________________ 200___ г.
Утверждена УС факультета
бизнес-информатики
Ученый секретарь
__________________ Фомичев В.А.
« ____» ___________________200___ г.
Москва
Пояснительная записка
Автор программы
Михальский Анатолий Иванович, к.т.н., с.н.с.
Требования к студентам
Изучение курса «Обучение машин и восстановление зависимостей» требует базовых
знаний по курсам «Математический анализ», «Линейная алгебра», «Основы теории
вероятностей и математической статистики». Для выполнения самостоятельных заданий
необходимы базовые навыки программирования в любой современной вычислительной
среде (Matlab, Scilab, Octav, S+, R).
Аннотация
Дисциплина «Обучение машин и восстановление зависимостей» предназначена для
подготовки магистров 010500.68 – Прикладная математика и информатика.
Широкое внедрение методов машинного обучения и обучения машин в области,
связанные с анализом экспериментальной информации: физика, химия, биология,
социология, экономика, лингвистика, интернет и т.д., требует подготовки специалистов,
владеющих как классическими, так и современными методами анализа данных. Структура
курса построена таким образом, чтобы, отталкиваясь от фундаментальных понятий теории
оценивания: выборочные распределения, правдоподобие, оптимальные решающие правила,
перейти к изучению и освоению современных принципов анализа данных, основанных на
результатах равномерного оценивания среднего риска, выбора оптимальных структур и
статистике «малых выборок». В процессе изучения дисциплины студенты знакомятся с
универсальными принципами анализа данных, объединяющими задачи оценивания,
классификации, построения регрессии, интерпретации данных косвенного эксперимента.
Среди современных методов восстановления зависимостей слушали ознакомятся с
теоретическими основами и получат практические навыки по использованию метода SVM
для решения задач классификации и построения регрессии, байесовских методов
классификации, оценивания и решения обратных задач, методов гребневой регрессии и, в
частности, ядерной гребневой регрессии, методов восстановления многомерных
зависимостей.
Курс включает в себя теоретико-методологическую и практическую части. В
теоретико-методологической части изучаются теоретические основы рассматриваемых
методов и постановок задач, выводятся теоретические результаты и обсуждаются
содержательные постановки проблем анализа данных. В рамках практической части
проводятся семинарские занятия, на которых обсуждается пройденный материал,
разбираются конкретные примеры задач анализа данных с помощью машинного обучения. В
рамках практической части слушатели выполняют самостоятельные задания для закрепления
прослушанных теоретических знаний и для приобретения практических навыков по
применению изученных алгоритмов. Решения самостоятельных заданий разбираются в
рамках семинарских занятий.
2
Учебные задачи курса
Цель курса. Курс предназначен ознакомить студентов с классическими и
современными методами анализа данных и дать практические навыки по применению
изученных методов в различных областях, требующих анализа эмпирической информации.
В результате изучения дисциплины «Обучение машин и восстановление зависимостей»
студенты должны:
 знать современные методы анализа данных с помощью обучения машин;
 понимать специфику и возможности применения различных методов анализа данных
в зависимости от конкретных решаемых задач;
 уметь применять процедуры и алгоритмы машинного обучения для восстановления
зависимостей по эмпирическим данным.
Тематический план курса «Обучение машин и восстановление
зависимостей»
№
Название темы
Задача восстановления зависимостей:
1 выбор функции, выбор класса, выбор
критерия.
Всего часов Аудиторные часы Самостопо
Сем. и ятельная
дисциплине Лекции практика работа
занятия
4
4
16
8
2
Задача классификации. Функция риска,
персептрон, нейронные сети.
18
4
4
10
3
Машина опорных векторов (SVM).
Ядерные методы анализа данных.
34
8
8
18
28
6
6
16
34
8
6
20
Метод структурной минимизации
эмпирического риска.
32
6
8
18
Итого
162
36
36
90
Сходимость эмпирического риска к
4 среднему. Критерии сходимости, VC –
размерность.
5 Выбор модели и регуляризация.
6
Источники информации
Базовый учебник
Базовыми учебными пособиями по дисциплине на русском языке являются следующие
книги.
1. В.Н. Вапник, А.Я. Червоненкис. Теория распознавания образов. Москва, Наука 1974.
3
2. Вапник В.Н. Восстановление зависимостей по эмпирическим данным. Москва, Наука
1979. (Обновлённый вариант вышел на английском языке: Vapnik V.N. The Nature of
Statistical Learning Theory. Springer, New York 2000.)
Список литературы
Основная литература
1. Вапник В.Н., А.Я. Червоненкис А.Я. Теория распознавания образов. М: Наука, 1974.
2. Вапник В.Н. Восстановление зависимостей по эмпирическим данным. М: Наука, 1979.
3. Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика.
Классификация и снижение размерности. М: Финансы и статистика, 1989.
4. Vapnik V.N. The Nature of Statistical Learning Theory. Springer, New York 2000.
Дополнительная литература
1. Айзерман М. А., Браверман Э. М., Розоноэр Л, И. Метод потенциальных функций в
теории обучения машин. М.: Наука, 1970.
2. Тихонов А.Н., Арсенин В.Я. Методы решения некорректных задач. М.: Наука, 1979.
Браверман Э.М., Мучник И.Б. Структурные методы обработки эмпирических данных.
М.: Наука, 1983.
3. Алгоритмы и программы восстановления зависимостей. Под редакцией В.Н. Вапника.
М: Наука, 1984.
4. Льюнг Л. Идентификация систем. Теория для пользователя. М.: Наука, 1991.
Тюрин Ю.Н., Макаров А.А. Статистический анализ данных на компьютере. М:
ИНФРА-М, 1998.
5. Галушкин А.И. Теория нейронных сетей.т1. Нейрокомпьютеры и их применение.
Издательство: ИПРЖР, 2000.
6. Носко В.П. Эконометрика для начинающих. М: Институт экономики переходного
периода, 2000.
7. Гнеденко Б.В. Курс теории вероятностей. 9-е издание. Эдиториал УРСС, 2005.
8. Хайкин С. Нейронные сети. Полный курс. Издательство: Вильямс, 2006.
9. Гельфанд И. М. Лекции по линейной алгебре; Добросвет, 2007.
Формы контроля и структура итоговой оценки
Текущий контроль – 6 самостоятельных внеаудиторных письменных заданий.
Промежуточный контроль – 2 письменных зачета (в конце первого и третьего модуля).
Итоговый контроль – письменный экзамен.
Итоговая оценка складывается из следующих элементов:
- работа на семинарах – 15%;
- 2 письменных зачета – 10% каждый;
- 6 письменных заданий – 5% каждое;
- письменный экзамен – 25%
Таблица соответствия оценок по десятибалльной и системе зачет/незачет
Оценка по 10-балльной шкале
Оценка по 5-балльной шкале
4
1
2
3
4
5
6
7
8
9
10
незачет
зачет
Таблица соответствия оценок по десятибалльной и пятибалльной системе
По десятибалльной шкале
По пятибалльной системе
1 – неудовлетворительно
2 – очень плохо
неудовлетворительно – 2
3 – плохо
4 – удовлетворительно
удовлетворительно – 3
5 – весьма удовлетворительно
6 – хорошо
хорошо – 4
7 – очень хорошо
8 – почти отлично
9 – отлично
отлично - 5
10 – блестяще
Программа курса «Обучение машин и восстановление
зависимостей»
Тема 1. Задача восстановления зависимостей:
класса, выбор критерия.
выбор функции, выбор
Задача восстановления зависимостей. Интерпретация в терминах выбора функции из
заданного класса. Интерпретация в терминах выбора модели из заданного класса моделей.
Интерпретация в терминах имитации одного автомата другим. Критерии выбора.
Линейные преобразования случайных величин. Метод максимального правдоподобия
(случай векторного параметра). Метод наименьших квадратов для оценки регрессии (общий
подход). Метод наименьших квадратов для поиска наилучшего линейного приближения.
(Стандартные процедуры регрессии и максимума правдоподобия).
Основная литература
1. Вапник В.Н. Восстановление зависимостей по эмпирическим данным. М: Наука, 1979.
2. Гельфанд И. М. Лекции по линейной алгебре; Добросвет, 2007.
3. Гнеденко Б.В. Курс теории вероятностей. 9-е издание. Эдиториал УРСС, 2005.
Дополнительная литература
1. Носко В.П. Эконометрика для начинающих. М: Институт экономики переходного
периода, 2000.
5
Тема 2. Задача классификации. Функция риска, персептрон, нейронные
сети.
Задача распознавания образов. Поиск решающего правила, минимизирующего число
ошибок или среднее значение функции штрафа на данных обучения, в задачах распознавания
образов. Разделение двух нормально распределенных совокупностей. Наивный Байес. Метод
ближайшего соседа.
Линейные решающие правила. Персептрон. Теорема Новикова. Потенциальные
функции. Нейронные сети.
Основная литература
1. Вапник В.Н., Червоненкис А.Я. Теория распознавания образов. М: Наука, 1974.
2. Хайкин С. Нейронные сети. Полный курс. Издательство: Вильямс, 2006.
Дополнительная литература
1. Галушкин А.И. Теория нейронных сетей.т1. Нейрокомпьютеры и их применение.
Издательство: ИПРЖР, 2000.
2. Айзерман М. А., Браверман Э. М., Розоноэр Л, И. Метод потенциальных функций в
теории обучения машин. М.: Наука, 1970.
Тема 3. Машина опорных векторов (SVM). Ядерные методы анализа
данных.
Обобщенный
портрет.
Двойственная
задача.
Оптимальная
разделяющая
гиперплоскость. Машина опорных векторов (SVM) – ядра вместо скалярных произведений.
Виды кернелов, параметры. Критика подхода. Проблема равномерной сходимости
эмпирического риска к истинному (или частот вероятностям, или средних к математическим
ожиданиям).
Основная литература
1. Вапник В.Н., Червоненкис А.Я. Теория распознавания образов. М: Наука, 1974.
2. Вапник В.Н. Восстановление зависимостей по эмпирическим данным. М: Наука, 1979.
Дополнительная литература
1. Айзерман М. А., Браверман Э. М., Розоноэр Л, И. Метод потенциальных функций в
теории обучения машин. М.: Наука, 1970.
2. Браверман Э.М., Мучник И.Б. Структурные методы обработки эмпирических данных. М.:
Наука, 1983.
Тема 4. Сходимость эмпирического риска к среднему. Критерии
сходимости, VC – размерность.
Критерии равномерной сходимости частот к вероятностям. Функция роста. VCразмерность. Связь с задачами обучения распознаванию образов. Критерии равномерной
сходимости средних к математическим ожиданиям.
Проблема выбора оптимальной
сложности модели.
6
Основная литература
1. Вапник В.Н., Червоненкис А.Я. Теория распознавания образов. М: Наука, 1974.
2. Вапник В.Н. Восстановление зависимостей по эмпирическим данным. М: Наука, 1979.
Дополнительная литература
1. Гнеденко Б.В. Курс теории вероятностей. 9-е издание. Эдиториал УРСС, 2005.
Тема 5. Выбор модели и регуляризация.
Выбор модели. Байесов подход к проблеме. Регуляризация метода наименьших
квадратов на основе Байесова подхода. Асимптотика. Обусловленность и псевдо-обратные
матрицы. Оптимальность для квадратичной штрафной функции.
Обратные задачи и их решение с использованием Байесовой
стратегии. Природа
некорректности. Ограничение по норме.
Метод Кригинга. Гребневая регрессия. Критика Байесова подхода. Регуляризация как
приближенная реализация Байесовой стратегии. Информационный критерий Акаике.
Основная литература
1. Вапник В.Н. Восстановление зависимостей по эмпирическим данным. М: Наука, 1979.
2. Тихонов А.Н., Арсенин В.Я. Методы решения некорректных задач. М.: Наука, 1979.
3. Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика.
Классификация и снижение размерности. М: Финансы и статистика, 1989.
Дополнительная литература
1. Браверман Э.М., Мучник И.Б. Структурные методы обработки эмпирических данных. М.:
Наука, 1983
2. Льюнг Л. Идентификация систем. Теория для пользователя. М.: Наука, 1991.
3. Тюрин Ю.Н., Макаров А.А. Статистический анализ данных на компьютере. М: ИНФРА-М,
1998.
Тема 6. Метод структурной минимизации эмпирического риска.
Структурная минимизация эмпирического риска, общий подход. Прямые средства
выбора оптимальной сложности модели. Скользящий контроль (cross validation).
Конформные предикторы.
Структурная минимизация эмпирического риска на базе оценок равномерной
сходимости. Применение структурной минимизации к задачам восстановления
действительных функций.
Основная литература
1. Вапник В.Н., А.Я. Червоненкис А.Я. Теория распознавания образов. М: Наука, 1974.
2. Вапник В.Н. Восстановление зависимостей по эмпирическим данным. М: Наука, 1979.
3. Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика.
Классификация и снижение размерности. М: Финансы и статистика, 1989.
7
Дополнительная литература
1. Алгоритмы и программы восстановления зависимостей. Под редакцией В.Н. Вапника. М:
Наука, 1984.
2. Тюрин Ю.Н., Макаров А.А. Статистический анализ данных на компьютере. М: ИНФРА-М,
1998.
Тематика заданий по формам текущего контроля
Примеры тем домашних работ
Задание 1.
Случайные величины X , Y и  связаны соотношением
y  f x    .
Случайная величина  не зависит от случайной величины X и распределена нормально
с математическим ожиданием 0 и дисперсией  2 .
n
Определить алгебраический полином степени n Pn  x    ai x i , к которому случайная
i 0
величина Y наиболее близка
2
D    y  Pn x  px, y dxdy .
в
смысле
среднеквадратичного
уклонения
Задание 2.
Дана квадратичная функция вектора Y с несимметричной матрицей A:
1
W Y   W0  a T Y  Y T AY .
2
Вектор a – случайный нормально распределённый вектор с четырьмя
координатами, нулевым средним значением и ковариационной матрицей K  BB T .
Вычислить среднее значение и ковариационную матрицу вектора Y, минимизирующего
функцию W(Y) для заданных матриц B и A, и сравнить полученный результат с
результатом вычислений по формулам:
1) для вектора среднего значения Y 
1 100 j
Y ;
100 j 1
2) для ковариационной матрицы covY km 



1 100 j
 Yk  Yk Y jm  Ym (k,m=1,2,3,4),
100 j 1
где Y j (j=1,…,100) - элемент численно сгенерированной выборки из 100 независимых
значений вектора Y , Yk j (k=1,2,3,4) – k-ая координата вектора Y j .
Задание 3.
Пусть Х и У - случайные непрерывные величины с плотностью совместного
распределения вероятности px, y  .
Вычислить функцию регрессии (условное математическое ожидание E Y | x  ) при

 x2 
1
1
2



 y  f x  
p  x, y  
exp 
exp  
2 
 2 2
2  y
y
 2 x 

 2  x
1
Задание 4.
8
Рассмотрим пару z   y, x  , где x, y-случайные величины, причём y=0, если x принадлежит
классу 0 и y=1, если x принадлежит классу 1.
Pz   P y, x  P y | xPx
Введём функцию потерь f z,    y  I x, A ,
0 x  A
где I x, A  
, A – некоторое множество на прямой.
1 x  A
Вероятность ошибочной классификации с помощью правила y *  I x, A
можно записать в виде функционала среднего риска
2
J m  A  E z  f z, A  E x, y  y  I x, A
2
Найти множество A, минимизирующее ошибку классификации J m  A .
Задание 5.
Каждый из двух классов векторов представлен нормальным распределением со
средними значениями M 1 , M 2 и ковариационными матрицами
K1  BB T и K 2  AAT .
Априорные вероятности принадлежности вектора к каждому из классов равны p1 и p2.
Используя
принцип
максимума
отношения
правдоподобия
построить
дискриминантную функцию для отнесения вектора X к одному из двух классов при
одинаковом штрафе за ошибки неверной классификации.
Задание 6.
Описать процедуру обучения распознаванию двух классов в методе потенциальных
функций.
Запрограммировать процедуру обучения распознаванию двух классов с помощью
метода потенциальных функций с ядром K x, y  и провести процедуру обучения для
распознавания двух классов в заданном наборе данных.
Задание 7.
Имеется 50 признаков, принадлежащих одному из двух классов. В каждом классе
признаки распределены нормально с одинаковыми ковариационными матрицами, равными
квадрату матрицы А, у которой главная диагональ равна 1, первая побочная диагональ равна
1, вторая побочная диагональ равна 0.2. Элементы прочих диагоналей матрицы А равны 0,
матрицы А симметрична. Вектор средних значений в классе 0 состоит из 0, вектор средних
значений в классе 1 состоит из 1.
При распознавании с помощью дискриминантной функции Фишера построить
экспериментально зависимость от числа используемых признаков
1. процента ошибок на экзаменационной выборке объёма 1000 элементов из каждого
класса (эта величина является оценкой среднего риска ) от числа используемых
признаков,
2. процента ошибок на обучающей выборке объёма по 100 элементов из каждого класса
(эта величина является эмпирическим риском ).
При распознавании использовать расширяющийся набор признаков согласно варианту.
Результат объяснить.
Задание 8.
9
Точки А и В располагаются на концентрических сферах с радиусами rA и rB . По
измерениям поля в этих точках методом кригинга прогнозируется значение поля в центре
сфер. Дисперсия поля в любой точке поля одинакова и не изменяется во времени,
корреляционная функция зависит только от расстояния между двумя точками, не изменяется
во времени и убывает с увеличением расстояния между точками. Среднее значение поля во
всех точках равно нулю.
Как расположить точки на сферах, чтобы условная дисперсия прогноза была
минимальна?
Примеры задач, предлагаемых на контрольных работах
1. Вычислить функцию роста системы произвольных выпуклых множеств в N-мерном
пространстве.
2. Пусть X  x1 , x2 ,...xn  - случайный, нормально распределённый вектор с нулевым
средним и ковариационной матрицей K. Записать оценку максимального
правдоподобия для значения x1 при заданных значениях x2 ,..., xn .
3. Сколько векторов из 5-ти мерного пространства использовать для обучения в классе
линейных решающих правил, чтобы уклонение частоты ошибок на обучающей
выборке от вероятности ошибочной классификации гарантированно было меньше 0.1
с вероятностью не меньшей 0.95?
4. Пусть случайные векторы X и Y связаны соотношением Y  AX   , где A –
фиксированная матрица, X имеет нормальное распределение с математическим
ожиданием X0 и ковариационной матрицей K x , а  имеет нормальное распределение
с нулевым математическим ожиданием и ковариационной матрицей K  . Записать 1)
выражение для апостериорного распределения вектора X при заданном векторе Y ,
2)выражение для апостериорного среднего значения вектора X при заданном векторе
Y.
5. На вход линейной системы с передаточной функцией K t,   exp  0.3t   
поступает белый шум (случайный процесс с некоррелированными значениями).
Записать формулу для прогнозирования методом кригинга значений выходного
сигнала в моменты времени ti*  i  0.5 по значениям выходного сигнала в моменты
времени ti  i , i=1,…,10.
Вопросы для оценки качества освоения дисциплины
Тема 1.
1. Как формулируется задача классификации в терминах задачи минимизации
функционала среднего риска?
2. Какой смысл имеет функционал эмпирического риска?
3. Когда метод максимального правдоподобия совпадает с методом наименьших
квадратов?
Тема 2.
1. Как построить оптимальное решающее правило при распознавании двух классов?
2. Какому классу принадлежит решающее правило, реализованное в персептроне?
3. Какой функционал минимизируется при построении нейронной сети?
Тема 3.
10
1. Как
формулируется
задача
распознавания
в
терминах
квадратичного
программирования?
2. Как строится оптимальная разделяющая гиперплоскость?
3. Как Связаны размерности пространства признаков и спрямляющего пространства в
методе SVM?
Тема 4.
1. Всегда ли частота сходится к вероятности при увеличении числа независимых
наблюдений?
2. Как гарантировать равномерную сходимость частота к вероятности при увеличении
числа независимых наблюдений?
3. Чему равна функция роста системы полуоткрытых интервалов?
Тема 5.
1. Как связаны проблемы выбора модели и регуляризация оценки?
2. Привести пример неустойчивой обратной задачи.
3. Как гребневая оценка связана с регуляризацией при использовании подхода Байеса?
Тема 6.
1. В чём заключаются основные принципы структурной минимизации риска?
2. Как используются равномерные оценки уклонения средних от математических
ожиданий в методе структурной минимизации риска?
3. В чём заключаются различия метода структурной минимизации риска и метода
скользящего контроля?
Автор программы: _____________________________/ Михальский А.И. /
11
Скачать