Многомерные статистические методы

реклама
Многомерные статистические методы
Лекция 5
Корреляционный анализ количественных переменных
1. Выбрать подходящий измеритель статистической связи (коэффициент
корреляции, корреляционное отношение и т. д.).
2. Оценить (с помощью точечной и интервальной оценок) его числовое
значение по выборочным данным.
3. Проверить гипотезу о том, что полученное числовое значение действительно свидетельствует о наличии статистической связи (корреляционная характеристика значимо отлична от нуля).
Рассматривается статистическая зависимость:
y( X ) = f ( X ) + ε ( X ) .
(
)
X = x (1) ,..., x ( p ) – объясняющие переменные, y – результирующая переменная.
Dy = Df + Dε – связь безусловных характеристик.
Теснота связи – максимальна, если по заданному значению X можно восстановить y( X ) без всякой случайной ошибки
ε ( X ) ≡ 0 , Dε = 0 , Dy = Df .
Теснота связи – минимальна, если значения X не несут никакой информации об y
f ( X ) ≡ c = const , Df = 0 , Dy = Dε .
Коэффициент детерминации
Коэффициент детерминации y по X – универсальный показатель степени тесноты статистической связи.
Df
Dε
Коэффициент детерминации отражает долю общей
вариации y, объясненную функцией регрессии f (X).
Dy
Dy
K d ( y, X ) = 0 , если Df = 0 , Dy = Dε – полное отсутствие связи.
K d ( y, X ) = 1 , если Dε = 0 – функциональная зависимость y = f ( X ) .
K d ( y, X ) =
= 1−
∈ [0;1] –
Выборочное значение коэффициента детерминации:
1 n
1 n
2
∑ ( yi − y ) , y = ∑ yi .
n i =1
n i =1
n
2
1
sε2 = ∑ yi − f$ ( X i ) , если f$ ( X i ) – статистически оцененное
n i =1
значение функции регрессии в точке X i .
s nj
1
sε2 = ∑ ∑ y ji − y j 2 , если есть группировка.
n j =1i =1
s 2y =
2
s
Kˆ d ( y, X ) = 1 − ε2
sy
(
)
(
)
## Зависимость спроса на пиво «Brahma» от цены
1
(335 + 299 + ... + 1217) = 740,65 ,
40
1
(335 − 740,65)2 + (299 − 740,65)2 + ... + (1217 − 740,65)2 = 124013 ,
s 2y =
40
1
(335 − 349 ,9 )2 + (299 − 349 ,9 )2 + ... + (1217 − 1171,8 )2 = 34494 ,
sε2 =
40
sε2
34494
ˆ
K d ( y, X ) = 1 − 2 = 1 −
= 0,722 = 72,2% – теснота чуть выше среднего уровня.
124013
sy
y=
(
(
)
)
12
Многомерные статистические методы
Лекция 5
Основные показатели тесноты статистической связи
Наиболее общий показатель тесноты связи – коэффициент детерминации K d ( y, X )
Показатели парной связи
Линейная связь
Показатели множественной связи
Произвольная связь
Парный коэффициент
корреляции rxy
Частные (очищенные)
коэффициенты
корреляции rij (−ij )
Корреляционное
отношение ρ yx
Множественный
коэффициент
корреляции Ry.X
Парные корреляционные характеристики
Парные корреляционные характеристики измеряют тесноту связи без учета
опосредованного или совместного влияния других показателей, только на основе
наблюдения значений двух переменных.
Парный коэффициент корреляции
Парный коэффициент корреляции измеряет тесноту парной линейной связи:
rxy =
M ((x − Mx )( y − My ))
σ xσ y
.
Если x и y распределены по нормальному закону, то функция регрессии имеет
линейный вид. Кроме того, выполняются следующие свойства:
1. rxy ∈ [− 1; 1] .
Если rxy > 0 , то положительная (монотонно возрастающая) парная связь;
если rxy < 0 , то отрицательная (монотонно убывающая) парная связь.
2. Если x и y статистически независимы, то rxy = 0 .
3. rxy = 1 тогда и только тогда, когда имеется функциональная линейная связь.
4. Коэффициент корреляции – симметричная характеристика: rxy = ryx .
5. Если rxy = 0 , то x и y статистически независимы.
2
6. K d ( y, x ) = rxy
.
Свойства 1–4 выполняются и в общем случае парной линейной зависимости,
однако близость коэффициента корреляции нулю не означает статистическую независимость x и y . Возможно, что исследуемые переменные даже связаны функциональным нелинейным соотношением (т. е. K d ( y , x ) = 1 ).
Выборочный коэффициент корреляции:
n
rˆxy =
∑ (xi − x )( yi − y )
= КОРРЕЛ (x1 : xn ; y1 : yn ) .
i =1
n
n
∑ ( xi − x ) ∑ ( y i − y )
i =1
2
2
i =1
13
Скачать