Lecture 8.6

advertisement
Лекция 8.6
Что делать в случае
гетероскедастичности?
Что делать в случае гетероскедастичности?
Y  1   2 X  u
Предположим, что нам известны дисперсии возмущений si2 для
всех наблюдений i = 1,…,n.
1
Y  1   2 X  u
u i  s i2
дисперсия
Yi
si
 1
1
si
 2
Xi
si

ui
si
Разделим обе части равенства на si для каждого наблюдения.
2
Y  1   2 X  u
u i  s i2
дисперсия
Yi
si
 1
1
si
 2
дисперсия новых возмущений
Xi
si

ui
si
 ui 
1

дисперсии
 
2
s i  s i
ui
s i2
 2 1
si
Тогда дисперсии возмущений в новой регрессии станут
одинаковыми и равными 1.
3
Преобразование переменных
Y  1   2 X  u
дисперсия
Yi
si
Y '  1 H   2 X ' u' Y ' 
 1
Yi
si
1
si
u i  s i2
 2
, H
Xi
si
1
si
,

ui
si
X '
Xi
si
, u' 
ui
si
Все сводится к оценке новой регрессии с преобразованными
факторами, оцениваем регрессию Y' на X' и H, которые
определенны выше. Отметим, что в новой регрессии нет
константы. 1 становится коэффициентом наклона перед
переменной 1/si.
4
Взвешенный метод наименьших квадратов
Y  1   2 X  u
u i  s i2
дисперсия
Yi
si
Y '  1 H   2 X ' u'
 1
1
si
Y '
Yi
 2
si
Xi
si
, H

ui
si
1
si
,
X '
Xi
si
, u' 
ui
si
Указанный метод называется взвешенным методом наименьших
квадратов. Наибольший вес 1/si получают наблюдения с
наименьшей дисперсией возмущений si.
5
Взвешенный метод наименьших квадратов
Y  1   2 X  u
variance of ui  s i2
s i  Z i
Однако на практике стандартные отклонения возмущений
обычно неизвестны. Но, оказывается, достаточно знать эти
стандартные отклонения с точностью до постоянного
множителя. Предположим, что стандартные отклонения
возмущений пропорциональны некоторой известной
переменной Zi.
6
Взвешенный метод наименьших квадратов
Y  1   2 X  u
дисперсия
u i  s i2
s i  Z i
Yi
X i ui
1
 1   2

Zi
Zi
Zi Zi
В этом случае мы достигаем гомоскедастичности остатков,
разделив все переменные на Zi.
7
Взвешенный метод наименьших квадратов
Y  1   2 X  u
дисперсия
u i  s i2
s i  Z i
Yi
X i ui
1
 1   2

Zi
Zi
Zi Zi
дисперсия
 ui 
s i2
1 2
2
   2 si  2 2  
si /
 Zi  Zi
Y '  1 H   2 X ' u'
Y '
Yi
X
u
1
, H  , X '  i , u'  i
Zi
Zi
Zi
Zi
Действительно, как показано выше, дисперсии новых остатков
одинаковы и равны 2. Нам нет необходимости знать 2. Достаточно
того, что это константа (т.е. одинаковые дисперсии для всех
возмущений, гомоскедастичность) .
8
Взвешенный метод наименьших квадратов
Y  1   2 X  u
дисперсия
u i  s i2
s i  Z i
Yi
X i ui
1
 1   2

Zi
Zi
Zi Zi
Y '  1 H   2 X ' u'
Y '
Yi
X
u
1
, H  , X '  i , u'  i
Zi
Zi
Zi
Zi
Если после выполнении теста Голдфелда – Квандта гипотеза о
гомоскедастичности отвергается, то в качестве Z может быть
использована переменная Xj.
9
Взвешенный метод наименьших квадратов
Y  1   2 X  u
u i  s i2
дисперсия
Yi
si
Y '  1 H   2 X ' u'
 1
1
si
Y '
Yi
 2
si
Xi
si
, H

ui
si
1
si
,
X '
Xi
si
, u' 
ui
si
На практике вместо si часто используют их оценки. Например,
если после проведения теста Глейзера гипотеза о
гомоскедастичности была отвергнута, поскольку в регрессии
ei    X i  ui , i  1,..., n
^
^
коэффициент β значим, то σi = |ei|, i = 1,..,n
10
Пример
Промышленное производство на
душу населения
9000
8000
7000
6000
5000
4000
3000
2000
1000
0
0
5000
10000
15000
20000
25000
30000
35000
40000
ВВП на душу населения
Пример зависимости производства на душу населения от ВВП на
душу населения (диаграмма рассеивания).
11
Пример
Промышленное производство на
душу населения
9000
8000
7000
RSS1 = 5,378,000
6000
5000
4000
3000
2000
1000
RSS2 = 17,362,000
0
0
5000
10000
15000
20000
25000
30000
35000
40000
ВВП на душу населения
Упорядочив страны по возрастанию ВВП на душу населения,
разбивает их на три группы, средние наблюдения выкидывает, а
для первой и последней группы наблюдений оцениваем
регрессии и находим RSS.
12
Пример
Промышленное производство на
душу населения
9000
8000
RSS1 = 5,378,000
7000
RSS 2 / n2  k 17,362,000 / 9
F ( n2  k , n1  k ) 

 3.23
5000
RSS1 / n1  k 5,378,000 / 9
6000
4000
F (9,9)crit ,5%  3.18
3000
2000
1000
RSS2 = 17,362,000
0
0
5000
10000
15000
20000
25000
30000
35000
40000
ВВП на душу населения
Проводим тест Голфелда - Квандта. Поскольку тестовая
статистика больше критической при 5% уровне значимости,
нулевая гипотеза о гомоскедастичности отвергается.
13
Пример
Y  1   2 X  u
дисперсия
u i  s i2
s i  X i
Альтернативная гипотеза в тесте Голфелда – Квандта
предполагает пропорциональность стандартного отклонения
возмущений объясняющей переменной (в данном примере X =
GDP) .
14
Пример
Y  1   2 X  u
дисперсия  s i2
s i  X i
Yi
ui
1
 1
 2 
Xi
Xi
Xi
Напомним, что для получения эффективных оценок требуется
преобразовать переменные, разделив их на ту переменную,
которой пропорционально стандартное отклонение возмущений.
15
Пример
Manufacturing/GDP
0.40
0.30
0.20
0.10
0.00
0
10
20
30
40
50
60
70
80
1/GDP x 1,000,000
Диаграмма рассеяния в преобразованных переменных.
16
Пример
Manufacturing/GDP
0.40
RSS1 = 0.065
0.30
0.20
0.10
RSS2 = 0.070
0.00
0
10
20
30
40
50
60
70
80
1/GDP x 1,000,000
Снова проводим тест Голдфелда - Квандта.
17
Пример
Manufacturing/GDP
0.40
RSS1 = 0.065
RSS 2 / n2  k 0.070 / 9
F ( n2  k , n1  k ) 

 1.08
RSS1 / n1  k 0.065 / 9
0.30
F (9,9)crit ,5%  3.18
0.20
0.10
RSS2 = 0.070
0.00
0
10
20
30
40
50
60
70
80
1/GDP x 1,000,000
На этот раз гипотеза о гомоскедастичности не отвергается. С
помощью преобразования гетероскедастичность была
устранена.
18
Второй способ борьбы с гетероскедастичностью
300000
250000
Выпуск
200000
150000
100000
50000
0
0
200000
400000
600000
800000
1000000
1200000
1400000
ВВП
Существует другой способ борьбы с гетероскедастичностью,
связанный с выбором другой функциональной формы модели,
а именно, линейной в логарифмах.
19
Логарифмическое преобразование данных
13
log Manufacturing
12
11
10
9
8
7
9
10
11
12
13
14
15
log GDP
Диаграмма рассеяния для переменных в логарифмическом
масштабе.
20
Линейная в логарифмах модель
13
RSS1 = 2.140
log Manufacturing
12
11
10
9
8
RSS2 = 1.037
7
9
10
11
12
13
14
15
log GDP
Проведем снова тест Голдфелда – Квандта для линейной в
логарифмах модели..
21
HETEROSCEDASTICITY: WEIGHTED AND LOGARITHMIC REGRESSIONS
13
RSS1 = 2.140
log Manufacturing
12
RSS 2 / n2  k 1.037 / 9
F (n2  k , n1  k ) 

 0.48
RSS 1 / n1  k
2.14 / 9
11
10
F (9,9)crit ,5%  3.18
9
8
RSS2 = 1.037
7
9
10
11
12
13
14
15
log GDP
Нулевая гипотеза о гомоскедастичности не отвергается.
22
Логарифмический масштаб
13
South Korea
log Manufacturing
12
11
Mexico
Singapore
10
9
Greece
8
7
9
10
11
12
13
14
15
log GDP
В логарифмическом масштабе разнице между Южной Кореей и
Мексикой не так сильно отличается от разницы для Сингапура и
Греции, как при линейном масштабе.
23
Линейный масштаб
300000
Manufacturing
250000
200000
South Korea
150000
100000
Singapore
50000
Mexico
Greece
0
0
200000
400000
600000
800000
1000000
1200000
1400000
GDP
24
Различные спецификации
MANˆ U  604  0.194GDP
(5700) (0.013)
MANˆ U
1
 0.189  533
GDP
GDP
(0.019)(841)
ˆ NU  1.694  0.999 log GDP
log MA
(0.785) (0.066)
R 2  0.89
R 2  0.02
R 2  0.90
По одним и тем же данным оценено несколько моделей.
25
Download