2. Линейная множественная регрессия

реклама
2. Линейная множественная регрессия
Краткая теоретическая справка по теме
Для оценки параметров уравнения линейной множественной регрессии
y  a  b1x1  b2 x2  ...  bp x p
(2.1)
применяют метод наименьших квадратов – строится система нормальных
уравнений, решение которой позволяет получить оценки параметров
регрессии:
 y  na  b1  x1  b2  x2  ...  b p  x p ,

2
 yx1  a  x1  b1  x1  b2  x2 x1  ...  b p  x p x1 ,
(2.2)

...

 yx  a x  b x x  b
 p 1  1 p 2  x2 x p  ...  bp  x 2p .
 p
Другой вид уравнения множественной регрессии – уравнение регрессии
в стандартизированном масштабе:
t y  1t x1   2t x2  ...   p t x p ,
(2.3)
где t y 
y y
, t xi 
xi  xi
– стандартизированные переменные;
 xi
 i – стандартизированные коэффициенты регрессии.
К уравнению множественной регрессии в стандартизированном
масштабе применим МНК, что приводит к решению системы уравнений:
ryx1  1   2 rx2 x1   3 rx3 x1  ...   p rx p x1 ,
y

ryx 2  1rx1 x2   2   3 rx3 x2  ...   p rx p x2 ,
(2.4)

...
r   r
1 x1 x p   2 rx2 x p   3 rx3 x p  ...   p .
 yx p
Для двухфакторной модели линейной регрессии t y  1t x1   2t x2 расчет
β-коэффициентов можно выполнить по формулам (следуют из решения
системы (2.4)):
ryx  ryx2 rx1x2
ryx2  ryx1 rx1x2
,
1  1


(2.5)
2
1  rx21x2
1  rx21x2
bi
Связь
коэффициентов
множественной
регрессии
со
стандартизированными коэффициентами  i описывается соотношением:
x
y
bi   i
,  i  bi i .
(2.6)
 xi
y
При этом: a  y  b1 x1  b2 x2 .
Тесноту совместного влияния факторов на результат оценивает
коэффициент множественной корреляции, который можно определить по
формуле:
R yx1x2 ... x p    i ryxi ,
(2.7)
где  i – стандартизированные коэффициенты регрессии,
ryxi – парные коэффициенты корреляции между переменными y и x i .
Качество построенной модели в целом оценивает коэффициент (индекс)
детерминации.
Коэффициент
множественной
детерминации
рассчитывается как квадрат индекса множественной корреляции:
2
.
R yx
(2.8)
1 x2 ... x p
Частные коэффициенты корреляции характеризуют тесноту связи
между результатом и соответствующим фактором при устранении влияния
(при закреплении их влияния на постоянном уровне) других факторов,
включенных в уравнение регрессии. Для двухфакторной модели их можно
определить по формулам:
ryx1  ryx2  rx1x2
ryx2  ryx1  rx1x2
; ryx2  x1 
;
ryx1  x2 
2
2
2
2
(1  ryx2 )(1  rx1x2 )
(1  ryx1 )(1  rx1x2 )
(2.9)
rx1x2  ryx1  ryx2
.
rx1x2  y 
2
2
(1  ryx1 )(1  ryx2 )
При построении уравнения множественной регрессии может возникнуть
проблема мультиколлениарности факторов (тесная линейная зависимость
более двух факторов). Считается, что две переменные явно коллинеарны,
если rxi x j  0,7 .
Статистическая значимость уравнения множественной регрессии в
целом оценивается с помощью общего F-критерия Фишера:
2
R yx
n  m 1
1 x 2 ... x p
F

,
(2.10)
2
m
1  R yx
x
...
x
1 2
p
где m – число факторов в линейном уравнении регрессии;
n – число наблюдений.
Вывод о статистической значимости уравнения множественной
регрессии в целом и коэффициента множественной детерминации можно
сделать, если наблюдаемое значение критерия больше табличного,
найденного для заданного уровня значимости (например,  = 0,05) и
степенях свободы k1  m , k 2  n  m  1.
Частный F-критерий оценивает статистическую значимость присутствия
каждого из факторов в уравнении множественной регрессии. Для
двухфакторной модели Fx1 оценивает целесообразность включения в
уравнение фактора x1 после того, как в него был включен фактор x 2 ; Fx2
оценивает целесообразность включения в уравнение фактора x 2 после того,
как в него был включен фактор x1 :
2
2
R yx
 ryx2 2 n  m  1
R yx
 ryx2 1 n  m  1
1 x2
1 x2
, Fx2 
,
Fx1 


(2.11)
2
2
1
1
1  R yx
1

R
yx1 x2
1 x2
где m – число факторов в линейном уравнении регрессии;
n – число наблюдений.
Фактическое значение частного F-критерия сравнивается с табличным
при 5%-ном или 1%-ном уровне значимости и числе степеней свободы:
k1  1 , k 2  n  m  1. Если фактическое значение превышает табличное, то
дополнительное включение соответствующего фактора в модель
статистически оправдано, в противном случае фактор в модель включать
нецелесообразно.
Скачать