Кафедра медицинской и биологической физики Тема: Основы корреляционного анализа. лекция № 11 для студентов 1 курса, обучающихся по специальности 030401– Клиническая психология к.п.н., доцент Шилина Н.Г. Красноярск, 2015 План лекции: Виды зависимостей и способы их представления Задачи корреляционного анализа Корреляция рангов Коэффициент ассоциации (тетрахорический показатель связи) Актуальность темы До сегодняшнего дня мы изучали характеристики некоторых генеральных совокупностей и выборок из этих совокупностей. Каждую изучаемую генеральную совокупность или выборку из нее можно описать с помощью функций распределения или таких характеристик, как математическое ожидание (среднее) и дисперсия. Как описать связи между величинами из различных совокупностей или выборок? случайными генеральных Виды зависимостей ВИДЫ ЗАВИСИМОСТЕЙ Функциональная Корреляционная При функциональных зависимостях каждому значению одной переменной величины соответствует одно вполне определенное значение другой переменной (функции). Корреляционные (статистические) связи характеризуются тем, что численному значению одной переменной соответствует много значений (распределение) другой переменной. Изучение корреляционных зависимостей Табличный метод а) для небольшого количества измерений, не сгруппированных в классы № 1 2 3 4 5 6 7 8 9 Х (рост) 158 161 166 170 174 178 166 174 170 у(вес) 59 60 61 65 70 69 63 65 67 Табличный метод б) для большого количества измерений х(АД) 60-70 70-80 80-90 30-40 1 2 1 40-50 3 5 50-60 7 7 1 60-70 3 2 7 6 1 70-80 1 3 2 4 1 2 3 1 1 1 у (ЧСС) 80-90 90-100 mx 100110 110120 120130 2 6 1 1 17 19 1 14 12 14 6 1 19 my 8 1 16 90100 2 4 6 1 72 Графический метод У У r=+0,5 r=0 Х Аналитический метод математической формулы) Х (в виде ЗАДАЧИ КОРРЕЛЯЦИОННОГО АНАЛИЗА Определение тесноты (степени сопряженности) между варьируемыми признаками Определение формы и направления связи КОРРЕЛЯЦИЯ бывает: положительной (прямой) и отрицательной (обратной) По форме – линейной и нелинейной. Процедура оценки связи (корреляции) между переменными двух типов 1. Находим среднее значение для каждого типа переменных и формируем новые переменные. Каждая новая переменная есть старая переменная минус среднее значений для переменных данного типа. Нахождение коэффициента корреляции n xi n y y i i 1 n x i 1 n n n Sy 2 ( y y ) i i 1 n 1 Sx 2 ( x x ) i i 1 n 1 2. Вычисляем ковариацию переменных двух типов x и y: cov(x, y ) M [( x M [ x ]) ( y M [ y ])] 1 cov(x, y ) ( xi x )( yi y ) n ковариация для выборки из n опытов Ковариация для независимых переменных 0,6 0,4 0,2 0 -0,6 -0,4 -0,2 0 0,2 -0,2 -0,4 -0,6 cov(x,y)=-0,3185 r(x,y)=-0,1125 0,4 0,6 Связь между ростом (в метрах) и весом человека (в кг) 140 120 Вес, кг 100 80 60 40 20 0 0 0,5 1 1,5 Рост, м 2 2,5 Нормированная связь «рост-вес» 40 вес - среднее, кг 30 20 10 0 -0,6 -0,4 -0,2 -10 0 0,2 -20 -30 -40 рост - среднее, м Ковариация сov (x, y)=199,31 0,4 0,6 Можно видеть, что величина ковариации зависит от того, в каких единицах измеряются переменные. Связь между ростом (в см) и весом человека (в г) 140000 cov(x,y) = 19931916 120000 80000 60000 40000 20000 0 0 50 100 150 200 250 40000 Рост, см 30000 Вес - среднее, г Вес, г 100000 20000 10000 0 -60 -40 -20 -10000 0 -20000 -30000 -40000 Рост - среднее, см 20 40 60 Связь между ростом (в километрах) и весом человека (в тоннах) 0,14 0,12 0,08 0,06 0,04 cov(x,y)=0,000199319 0,02 0 0 0,0005 0,001 0,0015 0,002 0,0025 Рост, км 0,04 0,03 Вес - среднее, т Вес, т 0,1 0,02 0,01 -0,0006 -0,0004 0 -0,0002 -0,01 0 0,0002 -0,02 -0,03 -0,04 Рост - среднее, км 0,0004 0,0006 3. Вычисляем коэффициент связи между переменными, не зависящий от выбора шкал, в которых измеряют изучаемые переменные. Для этого делим величину ковариации на произведение стандартных отклонений для каждой из переменных. r cov( x, y ) x y r - коэффициент корреляции cov(x, y ) r sx s y так как коэффициент корреляции для выборки то ( yi y ) ( xi x ) tx и ty sx sy t t r x y n (x i x )( yi y ) ns x s y На практике коэффициент корреляции рассчитывают по формуле: r n x i yi x i yi (n x i2 ( x i ) 2 )(n y i2 ( y i ) 2 ) Ковариации и корреляции между переменными при различном выборе единиц измерения Единицы cov(x,y) s(x) s(y) r(x,y) м/кг 199,3192 0,211682 21,84657 0,979 см/г 19931916 21,168 21846,57 0,979 км/т 0,000199 0,000212 0,021847 0,979 Если r < 0,3 – связь слабая; 0,3 ≤ r ≤ 0,5 – связь умеренная; 0,5 ≤ r ≤ 0,7 – связь значительная; 0,7 ≤ r ≤ 0,9 – связь сильная; r = 0 – связь отсутствует; r = 1 – связь функциональная. Пример: Определить наличие связи между величиной годовой прибыли (Y) и затратами на функционирование (Х) аптеки за 5 лет. Оценить достоверность полученных результатов. X 6 3 7 5 10 Y 33 22 32 28 42 График зависимости годовой прибыли от затрат аптеки 45 Y 40 35 30 25 20 15 10 5 0 0 2 4 6 X 8 10 12 5 1048 31157 r 0,98 5 219 9615 5145 24649 r > 0,9 – связь сильная r2=96% Условие однородности связи 140 120 Вес, кг 100 80 60 40 20 0 0 0,5 1 1,5 Рост, м r(x,y)=0,71 2 2,5 Оценки значимости коэффициента корреляции Полученный коэффициент корреляции является выборочным, поэтому он имеет свою ошибку – “ошибку” выборочности. Эта ошибка является мерой расхождения между коэффициентом корреляции выборки (r) и коэффициентом корреляции генеральной совокупности (обозначим его ). Согласно нулевой гипотезе предполагается, что в генеральной совокупности нет связи между варьирующими признаками (=0). Тогда критерий нормированного отклонения: tэкс r r 0 r sr sr sr Для малых выборок (n<30) ошибку коэффициента корреляции sr можно определить по формуле: sr 1 r 2 n2 где n-число пар измерений r n2 n2 tэм п r 2 2 1 r 1 r 0,98 3 tэм п 8,53 2 1 0,98 t0.95;3=3,18 tэмп > tкрит нулевая гипотеза отвергается, связь достоверна, т.е. с увеличением затрат увеличивается и годовая прибыль аптеки. КОРРЕЛЯЦИЯ РАНГОВ r 1 6 d 2 n(n 1) 2 rp коэффициент Спирмена для непараметрических показателей. d=xρ- yρ ; n – объем выборки. Коэффициент достоверности (для числа пар рангов больше 9): t r n2 1 r 2 Пример: Оценить связь между окрасом и агрессивностью лис. Лисы ранги d d2 агрес-сть окрас А 1 3 -2 4 Б 2 1 1 1 В 3 2 1 1 Г 4 5 -1 1 Д 5 4 1 1 Е 6 8 -2 4 Ж 7 6 1 1 З 8 7 1 1 Агрессивность: 1 – слабая; 8 – сильная. Окрас: 1 – худший; 8 – лучший. 6 d 2 6 14 r 1 1 0,83 2 n(n 1) 8 63 Р n=5 n=6 n=7 n=8 0,95 1 0,89 0,75 0,71 1 0,84 0,86 0,99 0,999 n≥9 t r n2 1 r 2 Вывод: с вероятностью большей 0,95 можно сказать, что между окрасом лис и их агрессивностью существует прямая положительная связь КОЭФФИЦИЕНТ АССОЦИАЦИИ (тетрахорический показатель связи) Используется, когда связь устанавливается только по наличию или отсутствию признака. ad bc r (a b)(c d )(а c)(b d ) a – особи, имеющие оба признака (++); b – особи, имеющие первый признак, но не имеющие второго (+-); c – особи, имеющие второй признак, но не имеющие первого (-+); d – особи, не имеющие обоих признаков (--). ПРИМЕР: При проверке действия прививки против сыпного тифа получены первичные материалы о числе заболевших (-) и не заболевших (+) из числа получивших (+) и не получивших (-) прививку. Оценить достоверность связи Получили прививку Не получили прививку Не заболели ++ а=54 -+ с=106 а+с=160 Заболели +- b=6 -- d=44 b + d=50 Σ а+ b=60 с+ d=150 ad bc r (a b)(c d )( а c)(b d ) 54 44 6 106 0,205 60 150 160 50 Σ n=210 Достоверность определяется по критерию χ2++=n·r2++=210·0,2052=8,83 Для числа степеней свободы ν=2-1 =1и Р=0,95 табличное значение χ2++=3,8. Т.е. связь между прививкой и не заболеванием брюшным тифом прямая и достоверная. Заключение Нами рассмотрены: Корреляционный анализ несгруппированных данных из нормально распределенных выборок. Непараметрические методы корреляционного анализа. РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА: Основная литература: Попов А.М. Теория вероятней и математическая статистика /А.М. Попов, В.Н. Сотников. – М.: ЮРАЙТ, 2011. – 440 с. Герасимов А. Н. Медицинская статистика: учебное пособие / А. Н. Герасимов. – М. : Мед. информ. агентство, 2007. – с. Балдин К. В. Основы теории вероятностей и математической статистики : учебник / К. В. Балдин. – М. : Флинта, 2010. – с. Учебно–методические пособия: Шапиро Л.А., Шилина Н.Г. Руководство к практическим занятиям по медицинской и биологической статистике Красноярск: ООО «Поликом». – 2003. БЛАГОДАРЮ ЗА ВНИМАНИЕ