Лекция 7 Смысл понятия «спецификация уравнения регрессии» Спецификация уравнения множественной регрессии • Выбор переменных • Выбор формы зависимости Выбор переменных – (следующая лекция) Аспекты изучения спецификации модели регрессии Существенная (необходимая в уравнении) переменная Последствия невключения в уравнение существенной переменной Включение и исключение переменных 1. Влияние на коэффициенты уравнения Для краткости будем называть переменную существенной, если она должна быть включена в уравнение (согласно правильной теории) 2. Влияние на значимость коэффициентов регрессии и уравнения в целом 3. Линейные ограничения Будем говорить также об исключении переменной из правильно специфицированного уравнения регрессии 1 1 Последствия невключения существенной переменной Механизм разрушения оценок коэффициентов Последствия невключения в уравнение существенной переменной 1. Уменьшается возможность правильной оценки и интерпретации уравнения 2. Коэффициенты при оставшихся переменных могут оказаться смещенными 3. Их стандартные ошибки, t-статистики и другие показатели качества становятся некорректными и не могут быть использованы для суждения о качестве уравнения Yi = α + β1 X 1i + β 2 X 2 i + ui Если вторая объясняющая переменная отсутствует, то где Y i = α + β 1 X 1 i + u *i ui* = f ( β 2 X 2i + ε ) Если объясняющие переменные коррелированы, то нарушается условие некоррелированности случайного члена и объясняющих переменных 1 Оценка величины смещения коэффициента Оценка направления смещения коэффициента Cov(x1, x2,) + переменная –отсутствует, то Если вторая объясняющая + – β2 + – + β – Cov( x1, x2 ) b1 =Если β1 вторая + β2 объясняющая + Ошибка выборки переменная отсутствует, то Var( x1 ) Cov ( x1 , x 2 ) Смещение = β 2 Var ( x1 ) Направление смещения зависит от знака истинного значения коэффициента при отсутствующей переменной и выборочной ковариации переменных 1 2 - Ковариация оценивается по выборке - Знак коэффициента отсутствующей переменной предполагается из теории 1 1 Эффект замещения существенной переменной Несущественная (ненужная для уравнения) переменная Последствия включения в уравнение несущественной переменной Для краткости будем называть переменную несущественной, если она не должна быть включена в уравнение (согласно правильной теории) Будем говорить также о включении лишней переменной в правильное уравнение регрессии Коэффициент детерминации может остаться большим за счет кажущегося эффекта замещающей переменной 1 Последствия включения несущественной переменной 1 Роль замещающих переменных Последствия включения в уравнение несущественной переменной Замещающие переменные 1. Не теряется возможность правильной оценки и интерпретации уравнения 2. Коэффициенты при прочих переменных остаются несмещенными 3. Стандартные ошибки растут, t-статистики уменьшаются, эффективность оценок падает 4. Несущественная переменная может быть значимой, уравнение с ней - давать лучшую оценку 5. Увеличивается риск мультиколлинеарности 1 Замещающая переменная: переменная, которая коррелирует с отсутствующей переменной уравнения множественной регрессии, и за счет этого выполняет функции этой отсутствующей переменной Включение замещающей переменной позволяет правильно оценить роль других факторов, освободив их от функции замещения отсутствующих переменных Коэффициенты замещающих переменных не имеют интерпретации, а сами замещающие факторы не могут быть использованы для формирования экономической политики 1 Влияние спецификации на значимость уравнения Оценка значимости включаемой переменной Включение и исключение переменных Значимость включаемой переменной измеряется tстатистикой соответствующего коэффициента 1. Влияние на коэффициенты уравнения Эквивалентный метод - использование F-критерия 2. Влияние на значимость коэффициентов регрессии и уравнения в целом F= Улучшение качества уравнения Необъяснен ная сумма квадратов отклонений / оставшееся число степеней свободы 3. Линейные ограничения F= 1 Оценка значимости включаемой группы переменных Улучшение качества уравнения / число использованных степеней свободы Необъяснен ная сумма квадратов отклонений / оставшееся число степеней свободы F= Эквивалентность предполагает двухстороннюю альтернативу для t-критерия 1 Четыре критерия для включения переменной Значимость включаемой группы переменных измеряется F-тестом F= ( RSSk − RSSk +1 ) / 1 ( RSSk − RSSk +1 ) / 1 = RSSk +1 /(n − (k + 1) − 1) RSSk +1 /(n − k − 2) ( RSSk − RSSk + s ) / s RSSk + S /(n − ( k + s ) − 1) Значимость группы переменных не означает значимости каждой из переменных 1 1. Роль переменной в уравнении опирается на прочные теоретические основания 2. Высокие значения t-статистики 3. Исправленный коэффициент детерминации растет при включении переменной 4. Другие коэффициенты испытывают значительное смещение при включении новой переменной 1 Процедуры поиска спецификации модели Проверка линейного ограничения Линейным ограничением называется условие линейной зависимости коэффициентов регрессии 1. Последовательный восходящий поиск 2. Последовательный нисходящий поиск Справедливость гипотезы о наличии линейного ограничения позволяет исключить лишнюю переменную. Проверка проводится по F-критерию или по t-критерию (непосредственно для включаемой переменной) Обе процедуры приводят к серьезным ошибкам и следует избегать их автоматического применения, либо резко ограничивать объем поиска F= Улучшение качества уравнения / число использованных степеней свободы Необъяснен ная сумма квадратов отклонений / оставшееся число степеней свободы F= ( RSS R − RSSU ) RSSU /( n − k − 1) 1 Тест ошибочной спецификации Рамсея 1 Тест ошибочной спецификации Амемии (Акаике) Тест Рамсея позволяет проверить, стоит ли начинать поиск дополнительной переменной для включения в уравнение Тест Амемии является вариантом скорректированного коэффициента детерминации и превосходит его 1. Оценивается уравнение регрессии Yˆi = α + β 1 X 1 i + β 2 X 2 i PC = 2. Вычисляются степени оценок зависимой переменной Yˆi 2 , Yˆi 3 , (Yˆi 4 ) 3. Оценивается уравнение регрессии с этими степенями Yˆi = α + β1 X 1i + β2 X 2i + γ2Yˆi 2 + γ3Yˆi 3 ( + γ4Yˆi 4 ) RSS ⋅ ( n + k ) n−k Выбирается уравнение с меньшим значением PC Смысл теста Амемии в том, что он позволяет минимизировать cреднюю ошибку оценки b MSE = Var(b) + (смещение b)2 4. Проводится оценка улучшения по F-критерию 1 1 Конец лекции