Правительство Российской Федерации Государственное образовательное бюджетное учреждение высшего профессионального образования «Государственный университет Высшая школа экономики» Факультет экономики Программа дисциплины Непараметрические методы оценивания для специальности 080100.68 «Экономика» подготовки магистра Автор к.ф.-м.н. Демидова О.А. (demidova@hse.ru) Рекомендована секцией УМС «Математические и статистические методы в экономике» Одобрена на заседании кафедры математической экономики и эконометрики Председатель Поспелов И.Г. Зав. кафедрой Канторович Г.Г. «_____» __________________ 2010 г. «____»_________________2010 г. Утверждена УС факультета экономики Ученый секретарь « ____» ___________________2010 г. Москва 1 Пояснительная записка Аннотация: Курс «Непараметрические методы оценивания» рассчитан на магистров второго года обучения магистерской программы “Математические методы анализа экономики» и может быть включен в учебный план студентов магистратуры других магистерских программ. Курс рассчитан на один семестр. Материал курса предназначен для теоретического и практического освоения слушателями основных непараметрических моделей и методов оценивания, таких, как бутстрапирование, ядерные методы, локально полиномиальные регрессии, сплайны, полупараметрические регрессии, обобщенные аддитивные модели, квантильеые регрессии и т.п. Практическая задача курса: Дать слушателям необходимые практические навыки использования специального блока в статистическом пакете STATA и работы в статистическом пакете R (это свободно распространяемое, постоянно обновляющееся ПО, многие модули которого специально созданы для применения непараметрических методов). Программа курса предусматривает наличие лекционных часов, а также регулярной самостоятельной работы студентов. Под самостоятельной подготовкой понимается более детальная проработка теоретического материала, рассматриваемого на лекциях, а также выполнение домашнего задания, разбитого на несколько частей в соответствии с изучаемыми темами. Основные требования к студентам: Курс «Непараметрические методы оценивания» рассчитан на студентов, прослушавших курс «Эконометрика-2». Тематический план учебной дисциплины № Название темы Лекции 1 Параметрические и непараметрические методы оценивания Понятие о программировании в статистическом пакете R Непараметрические статистические методы Бутстрепы Ядерные методы оценивания Сплайны Аддитивные и полупараметрические регрессионные модели Робастные методы оценивания Квантильная регрессия Домашняя работа Итого 2 2 3 4 5 6 7 8 9 Самостоятельная Работа Всего Часов 2 2 1 3 4 4 4 4 4 1 1 1 1 1 5 5 5 5 5 4 4 1 1 14 22 5 5 14 54 32 Формы контроля текущий контроль за посещением лекций текущий контроль за выполнением домашнего задания, разбитого на 7 частей итоговый контроль: зачетная работа на 80 мин и устная беседа с лектором 2 Регламент проставления оценки Студенту, посетившему не менее 80% лекций и выполнившему в срок все части домашнего задания, может быть предложена автоматом некоторая оценка в зависимости от качества выполнения домашнего задания. Если студент не согласен с предложенной оценкой, то ему предлагается ответить на несколько теоретических вопросов и выполнить несколько компьютерных упражнений. По результатам беседы по этим теоретическим вопросам и упражнениям студенту выставляется итоговая оценка. Содержание программы Тема 1. Параметрические и непараметрические методы оценивания 1.1.Сравнение параметрических и непараметрических методов оценивания. 1.2. Достоинства и недостатки непараметрических методов оценивания. Литература к теме 1. 1) Айвазян С.А., Енюков И.С., Мешалкин Л.Д. «Прикладная статистика: Исследование зависимостей: Справочное издание», М. Финансы и статистика, 1985, 487 с. (Глава 10). 2) Болдин М.В., Симонова Г.И., Тюрин Ю.Н. «Знаковый статистический анализ линейных моделей», М. Наука, Физматлит, 1997, 288 с. 3) Крил М. (2008) Некоторые ловушки параметрической интерференции», Квантиль, №4, с.1 – 6. 4) Расин Д. (2008) «Непараметрическая эконометрика: вводный курс», Квантиль, №4, с.7 – 56. Тема 2. Понятие о программировании в пакете R 2.1. Общая информация о статистическом пакете R. Установка. Чтение файлов различных форматов. 2.2. Структура команд. 2.3.Основные логические операторы. Циклы. 2.4. Оценивание параметров линейных регрессионных моделей и логит моделей. 2.5. Простейшая графика. Информационный ресурс к теме 2. http:///www.r-project.org Тема 3. Непараметрические статистические методы 3.1. Непараметрические критерии для проверки отсутствия различий в значениях параметров (средних, медиан, дисперсий) двух или нескольких генеральных совокупностей. 3.2. Тесты Вилкоксона и Манна Уитни для проверки гипотезы о равенстве средних двух генеральных совокупностей. 3 3.3. Крускалла-Уоллеса тест для проверки гипотезы о равенстве средних более двух генеральных совокупностей. 3.4. Seigel-Turkey тест для проверки гипотезы о равенстве дисперсий двух генеральных совокупностей. Литература к теме 3. 1) Айвазян С.А., Мхитарян В.С. «Прикладная статистика и основы эконометрики», М., Юнити, 1998, 1022 с., раздел 8.6. 2) Hollander M., Wolfe D., “Nonparametric statistical methods”, New York, John Wiley & Sons, 1999. 3) Lehmann, Erich L., Nonparametrics: Statistical Methods Based on Ranks, Springer, 2006. Тема 4. Бутстрепы 4.1. Оценивание неизвестного параметра по выборке бутстреп-методом. 4.2. Бутстреп – методы оценивания параметров уравнения регрессии: 1) бутстрапирование данных, 2) бутстрапирование остатков. 4.3. Построения доверительных интервалов для параметров регрессии бутстреп-методом с использованием бутстреп - «таблиц» или персентилей. 4.4. Проверка гипотез при помощи бутстрепа. 4.5. Бутстреп – оценивание параметров с помощью пакета STATA. 4.6. Бутстреп – оценивание параметров с помощью пакета R. Литература к теме 4. 1) Анатольев В. (2007) «Основы бутстрапирования», Квантиль, №3, с.1 – 12 2) Davidson A.C., Hinkley D.V.(1997) “Bootstrap methods and their application”, Cambridgi University Press. 3) Efron B., Tibshirani “An introduction to the bootstrap”, Chapman & Hall, 1993 4) Green ed.4 , 5.3.4 Bootstraping, p.173-174 5) Johnston D., DiNardo J. (1997). Econometric methods. (4th ed.). McGraw-Hill, p.362-370 6) Maddala, G.S. (2001). Introduction to Econometrics (3th ed.). New York: John Wiley & Sons, p.596-603 Тема 5. Ядерные методы оценивания 5.1. Основная идея сглаживания – процедура локального усреднения. Ядерные оценки плотности. Выбор параметра сглаживания. 5.2. Локально-постоянная ядерная регрессия Надарая –Ватсона. Методы выбора параметра сглаживания. 5.3. Локально полиномиальная ядерная регрессия. Модели LOESS и LOWESS. 5.4. Построение доверительных интервалов, проверка гипотез для локально полиномиальной регрессии. 4 Литература к теме 5. 1) Хардле В. «Прикладная непараметрическая регрессия», М. Мир, 1993. 2) Keele L. “Semiparametric Regression for the Social Sciences”, chapter 2, John Wiley&Sons, Ltd., 2008. 3) Ruppert D., Wand M., Carrol R. “Semiparametric regression”, chapter 6, Cambridge University Press, 2003. 4) Pagan A., Ullah A. “Nonparametric econometrics”, chapter 2-3, Cambridge University Press, 1999. 5) Hardle W., Muller M., Sperlich S., Werwatz A. “ Nonparametric and Semiparametric Models”, Springer, 2004. Тема 6. Сплайны 6.1. Определение линейных сплайнов. Сплайны порядка p. 6.2. Натуральные сплайны (natural splines). 6.3. B- сплайны (B – splines). 6.4. Проблема выбора количества узлов сплайна и их расположения. 6.5. Сглаживающие сплайны (smoothing splines). 6.6. Построение доверительных интервалов, проверка гипотез для сплайнов. 6.7. Выбор параметра сглаживания для сглаживающих сплайнов с помощью метода обобщенной кросс-валидации. 6.8. Оценка сплайнов в пакете STATA. 6.9. Оценка сплайнов в пакете R. Литература к теме 6. 1) Хардле В. «Прикладная непараметрическая регрессия», c. 69-78, М. Мир, 1993. 2) Keele L. “Semiparametric Regression for the Social Sciences”, chapter 3, John Wiley&Sons, Ltd., 2008. 3) Ruppert D., Wand M., Carrol R. “Semiparametric regression”, chapter 3-4, Cambridge University Press, 2003. 4) Pagan A., Ullah A. “Nonparametric econometrics”, p.91-93, Cambridge University Press, 1999. 5) Hardle W., Muller M., Sperlich S., Werwatz A. “ Nonparametric and Semiparametric Models”, Springer, 2004. 6) Wahba G. “Spline Models for Observational Data”. Philadelphia: SIAM. Тема 7. Аддитивные и полупараметрические регрессионные модели 7.1.Аддитивные модели. 7.2. Полупараметрические модели. 7.3. Методы оценивания аддитивных и полупараметрических моделей. 7.4. Построение доверительных интервалов, проверка гипотез для аддитивных и полупараметрических моделей. 7.5. Обобщенные аддитивные модели. 5 7.6. Оценка полупараметрических моделей и обобщенных аддитивных моделей в пакете R. Литература к теме 7. 1) Keele L. “Semiparametric Regression for the Social Sciences”, chapter 5-6, John Wiley&Sons, Ltd., 2008. 2) Ruppert D., Wand M., Carrol R. “Semiparametric regression”, chapter 8-11, Cambridge University Press, 2003. 3) Pagan A., Ullah A. “Nonparametric econometrics”, chapter 5-9, Cambridge University Press, 1999. Тема 8. Робастные методы оценивания 8.1. BDP (breakdown point) - мера робастности оценок параметров генеральной совокупности по выборке 8.2. Примеры робастных оценок для среднего: цензурированное среднее (trimmed mean), медиана. 8.3. Measure of scale: стандартное отклонение, среднее отклонение от среднего, среднее отклонение от медианы, q – квантильный интервал, медиана абсолютного отклонения от медианы). 8.4. M - оценки . Примеры M – оценок: Huber estimates, biweight estimates. 8.5.Методы выявления выбросов (outliers): стьюдентизированные остатки, DFBETAs, Cook’s distance. 8.6. Робастные методы оценивания коэффициентов регрессии. Least Absolute Values Regression, Least Median of Squares Regression, Least Trimmed Squares Regression, M- estimators. 8.7. Применение робастных методов оценивания в пакете R. Литература к теме 8. 1) Andersen Robert, “Modern methods for robust regression”, Sage Publications, 2007. Тема 9. Квантильная регрессия 9.1. Общая модель квантильной регрессии. Медианная регрессия. 9.2. Сведение оценки параметров модели квантильной регрессии к задаче линейного программирования. 9.3. Проверка гипотез для коэффициентов квантильной регрессии. Проверка гипотез о «параллельности линий» квантильной регрессии. 9.4.Оценивание параметров модели квантильной регрессии с помощью пакета STATА. Литература к теме 9. 1) Постникова Е. «Квантильная регрессия» 2) Johnston D., DiNardo J. (1997). Econometric methods. (4th ed.). McGraw-Hill, p.444-445 3) Roger Koenker, “Quantile regression”, Cambridge University Press, 2005. ----------------------------------------------------------------------------------------------------------------------------- ---------------------------- 6 Вопросы для оценки качества освоения дисциплины 1) Исходя из какого критерия, следует выбирать количество узлов в сплайне? 2) Каков алгоритм оценки аддитивной модели? 3) Чем отличается бутстрапирование данных от бутстрапирования остатков при применении бутстреп – методов оценивания параметров уравнения регрессии? 4) Чему равна BDP (breakdown point) для цензурированного среднего (trimmed mean)? А для медианы? 5) Приведите формулу для стьюдентизированных остатков регрессии. Для чего они используются? 6) Показать, как оценка параметров квантильной регрессии сводится к задаче линейного программирования. 7) Опишите случаи применения метода кросс-валидации. В чем состоит этот метод? 8) Чем отличается локально-постоянная ядерная регрессия Надарая –Ватсона от локально полиномиальной ядерной регрессии? 9) Каков общий вид аддитивной полупараметрической модели? Примеры домашнего задания Пример 1. Используйте данные файла demo2.dta , содержащем наблюдения для 76 стран. В качестве зависимой выберите переменную demo – процент деятельности в стране, которая может быть характеризована как политические демонстрации, а в качестве независимых union – уровень объединенности нации и inflation – уровень инфляции. 1) Используйте натуральный кубический сплайн для оценки зависимости между demo и union. 2) Используя критерий AIC, выберите оптимальное количество узлов. 3) Проверьте статистическую значимость этой модели. 4) Сравните натуральный кубический сплайн с линейной, квадратичной, логарифмической моделями. 5) Постройте 95% доверительный интервал для каждого оцененного значения зависимой перемнной. 6) Оцените сглаживающий сплайн, выбрав параметр сглаживания с помощью метода General Cross-Validation. 7) Повторите все вычисления для второй зависимой переменной. Пример 2. Используйте данные файла forest.dta. В качестве зависимой выберите переменную deforest – меру исчезновения лесов в стране, а в качестве независимых dem, wardum (dummy), rgdpl, openc, popdense (описание переменных прилагается ниже). 1) Оцените полупараметрическую модель, выбрав сплайн-интерполяцию для каждой непрерывной независимой переменной. 2) Посмотрите на графики зависимости от каждой переменной в оцененной модели. Какая из зависимостей кажется Вам нелинейной? 3) Проверьте, какую зависимость лучше выбрать для каждой переменной: линейную или нелинейную? (Конечно, если эта зависимость имеет место, проверяйте значимость зависимости от каждой переменной). 7 4) Если нелинейную, то сравните сплайн модели с квадратичными и логарифмическими. 5) Какую модель Вы выберете в результате? Переменные Outcome variable deforest - measure of deforestation Predictors cow - correlates of war dyad popdense - population density rgdpl - real gdp per capita dem - Democracy score wardum - war dummy variable rgdplsq - gdp squared demdum - democracy dummy autodum - autocracy dum openc - trade openess Пример зачетной работы 1. Робастные методы оценивания коэффициентов регрессии. 2. Оценка обобщенных аддитивных моделей. 3. Используйте данные файла cps.dta. В качестве зависимой выберите переменную hrlywage – почасовая заработная плата, а в качестве независимых age – возраст и intdivrt – доход от инвестиций и банковских процентов. 1) Постройте диаграмму рассеяния для переменных hrlywage и wage. Как Вы думаете, существует ли между этими переменными зависимость? Линейная или нелинейная? 2) Оцените линейную модель (с помощью МНК). 3) Оцените LOESS модели с разными значениями span. 4) Постройте 95% доверительные интервалы для оцененных с помощью модели LOESS значений зависимой переменной. 5) Протестируйте гипотезу об адекватности LOESS модели. 6) Попарно сравните LOESS модель с линейной, квадратичной, логарифмической. 7) Добавьте в LOESS модель переменную intdivrt. Улучшило ли это модель? 8) Постройте двумерный график зависимости hrlywage от age и intdivrt, оцененной с помощью второй LOESS модели. Автор программы: _____________________________/ Демидова О.А./ 8 9