2. Линейная множественная регрессия Краткая теоретическая справка по теме Для оценки параметров уравнения линейной множественной регрессии y a b1x1 b2 x2 ... bp x p (2.1) применяют метод наименьших квадратов – строится система нормальных уравнений, решение которой позволяет получить оценки параметров регрессии: y na b1 x1 b2 x2 ... b p x p , 2 yx1 a x1 b1 x1 b2 x2 x1 ... b p x p x1 , (2.2) ... yx a x b x x b p 1 1 p 2 x2 x p ... bp x 2p . p Другой вид уравнения множественной регрессии – уравнение регрессии в стандартизированном масштабе: t y 1t x1 2t x2 ... p t x p , (2.3) где t y y y , t xi xi xi – стандартизированные переменные; xi i – стандартизированные коэффициенты регрессии. К уравнению множественной регрессии в стандартизированном масштабе применим МНК, что приводит к решению системы уравнений: ryx1 1 2 rx2 x1 3 rx3 x1 ... p rx p x1 , y ryx 2 1rx1 x2 2 3 rx3 x2 ... p rx p x2 , (2.4) ... r r 1 x1 x p 2 rx2 x p 3 rx3 x p ... p . yx p Для двухфакторной модели линейной регрессии t y 1t x1 2t x2 расчет β-коэффициентов можно выполнить по формулам (следуют из решения системы (2.4)): ryx ryx2 rx1x2 ryx2 ryx1 rx1x2 , 1 1 (2.5) 2 1 rx21x2 1 rx21x2 bi Связь коэффициентов множественной регрессии со стандартизированными коэффициентами i описывается соотношением: x y bi i , i bi i . (2.6) xi y При этом: a y b1 x1 b2 x2 . Тесноту совместного влияния факторов на результат оценивает коэффициент множественной корреляции, который можно определить по формуле: R yx1x2 ... x p i ryxi , (2.7) где i – стандартизированные коэффициенты регрессии, ryxi – парные коэффициенты корреляции между переменными y и x i . Качество построенной модели в целом оценивает коэффициент (индекс) детерминации. Коэффициент множественной детерминации рассчитывается как квадрат индекса множественной корреляции: 2 . R yx (2.8) 1 x2 ... x p Частные коэффициенты корреляции характеризуют тесноту связи между результатом и соответствующим фактором при устранении влияния (при закреплении их влияния на постоянном уровне) других факторов, включенных в уравнение регрессии. Для двухфакторной модели их можно определить по формулам: ryx1 ryx2 rx1x2 ryx2 ryx1 rx1x2 ; ryx2 x1 ; ryx1 x2 2 2 2 2 (1 ryx2 )(1 rx1x2 ) (1 ryx1 )(1 rx1x2 ) (2.9) rx1x2 ryx1 ryx2 . rx1x2 y 2 2 (1 ryx1 )(1 ryx2 ) При построении уравнения множественной регрессии может возникнуть проблема мультиколлениарности факторов (тесная линейная зависимость более двух факторов). Считается, что две переменные явно коллинеарны, если rxi x j 0,7 . Статистическая значимость уравнения множественной регрессии в целом оценивается с помощью общего F-критерия Фишера: 2 R yx n m 1 1 x 2 ... x p F , (2.10) 2 m 1 R yx x ... x 1 2 p где m – число факторов в линейном уравнении регрессии; n – число наблюдений. Вывод о статистической значимости уравнения множественной регрессии в целом и коэффициента множественной детерминации можно сделать, если наблюдаемое значение критерия больше табличного, найденного для заданного уровня значимости (например, = 0,05) и степенях свободы k1 m , k 2 n m 1. Частный F-критерий оценивает статистическую значимость присутствия каждого из факторов в уравнении множественной регрессии. Для двухфакторной модели Fx1 оценивает целесообразность включения в уравнение фактора x1 после того, как в него был включен фактор x 2 ; Fx2 оценивает целесообразность включения в уравнение фактора x 2 после того, как в него был включен фактор x1 : 2 2 R yx ryx2 2 n m 1 R yx ryx2 1 n m 1 1 x2 1 x2 , Fx2 , Fx1 (2.11) 2 2 1 1 1 R yx 1 R yx1 x2 1 x2 где m – число факторов в линейном уравнении регрессии; n – число наблюдений. Фактическое значение частного F-критерия сравнивается с табличным при 5%-ном или 1%-ном уровне значимости и числе степеней свободы: k1 1 , k 2 n m 1. Если фактическое значение превышает табличное, то дополнительное включение соответствующего фактора в модель статистически оправдано, в противном случае фактор в модель включать нецелесообразно.