Математическая обработка результатов измерения Математические основы измерения Лекция 6 Корреляционный и регрессионный анализ Лектор: ст. преподаватель каф. ИИТ Вавилова Галина Васильевна Содержание 1. Функциональная, статистическая и корреляционная зависимости 2. Корреляционный анализ 3. Регрессионный анализ 2 Функциональная, статистическая и корреляционная зависимости Функциональная зависимость Статистическая зависимость Независимые 3 Виды связи • Такая связь что любому xi соответствует только одно значение yi, • Графически функциональная связь двух величин представляется какой-то кривой f(x) или, в Функциональная частности, прямой линией y=kx связь 4 Статистическая зависимость Корреляционная зависимость • при которой изменение одной из величин влечет изменение распределения другой. • частный случай статистической зависимости, при которой при изменении одной из величин изменяется среднее значение другой 5 Какой вид связи представлен на рисунке? 6 Корреляционный анализ В теории вероятности: D( x y ) D( x) D( y ) Если для суммы двух случайных величин окажется, что D( x y ) D( x) D( y ) то это является признаком корреляционной зависимости между ними. 7 Корреляционный анализ D(x) = M x - Mx 2 D(y) = M y - My 2 то D(x y) = M x y - Mx y D( x) D(y) 2Mx - Mx y - My 2 M x-M x y-M y 0. M x-M x y-M y 0. наличие зависимости между x и y 8 M x-M x y-M y 0. наличие зависимости между x и y НО Mx - Mxy - My 0 Независимость xиy 9 Корреляция Корреляция • связь, которая вызывает отличие дисперсии суммы от суммы дисперсии Необходимое и достаточное условие корреляции • M x-M x y-M y 0. • размерная величина, количественно зависящая от рассеяния аргументов. Корреляционный момент K xy M x-M x y-M y . 10 Коэффициент корреляции • Нормированная безразмерная величина Коэффициент корреляции K xy D( x )D( y ) K xy x y . • определяет степень тесноты корреляционной связи между двумя величинами 11 Свойства коэффициента корреляции Если X и Y независимы между собой, то ρ = 0. • Но ρ = 0 и для некоторых зависимых величин, которые называются в этом случае некоррелированными. Возможные значения коэффициента корреляции: -1 ≤ ρ ≤ 1. Если ρ≠0, то существует статистическая связь Сила связи: • чем больше ρ по модулю, тем сильнее связь; • ρ = ±1 означает, что между величинами существует функциональная связь, но не любая, а строгая линейная зависимость Таким образом коэффициент корреляции • показатель того, насколько связь между величинами близка к строгой линейной зависимости. • отмечает как долю случайности, так и степень близости к линейной зависимости. 12 Сила корреляции отсутствие корреляции слабая — от 0,1 до 0,3 умеренная — от 0,3 до 0,5 заметная — от 0,5 до 0,7 высокая — от 0,7 до 0,9 весьма высокая (сильная) — от 0,9 до 1,0. 13 Определите силу корреляции 14 Оценивание коэффициента корреляции опытным путем 1. провести n испытаний. 2. зарегистрировать одновременно X и Y, и получить n пар значений (x1, y1), (x2, y2), …, (xn, yn). 3. отметить эти пары как координаты точек на плоскости. 15 Корреляционный анализ • Оценку зависимости между случайными величинами по выборочному коэффициенту корреляции Корреляционный анализ 16 Выборочные корреляционный момент и коэффициент корреляции n r 1 n 1 x i 1 i x ( y i y ) SxSy Коэффициент корреляции K xy x Корреляционный момент n 1 xi n i 1 1 n y yi n i 1 1 n xi x ( yi y ) n 1 i 1 1 n 2 S y y . i n 1 i 1 2 y Выборочный коэффициент корреляции K xy D( x )D( y ) K xy x y . Выборочные корреляционный момент K xy M x-M x y-M y . 1 n x i x 2 S n 1 i 1 2 x 17 Для практических вычислений удобнее пользоваться следующими формулами n n x i 1 i n x y i 1 n x ( yi y ) xi yi n 2 x x i i 1 n y i 1 i y 2 n i i 1 n xi n 2 xi i 1 n i 1 n y i n 2 i 1 yi n i 1 i 1 i 2 2 18 Проверка гипотезы о значимости выборочного коэффициента корреляции При достаточно объеме • выборочный коэффициент корреляции r приближается к истинному значению ρ Требуется проверка гипотезы о наличии корреляционной связи • генеральный коэффициент корреляции равен нулю H0 : 0 Критерий значимости при проверке нулевой гипотезы • r-критерий • t-критерий 19 r - критерий а) по таблицам r – распределения определяется граничное значение критерия rгр по заданному уровню значимости α и числу степеней свободы k = n – 2. б) проверяется выполнение условия: /r/ < rгр. в) Если условие выполняется, то H 0 : 0 принимается и считается, что случайные величины не коррелированы между собой. 20 t - критерий H0 : 0 а) вычисляется наблюдаемое значение критерия Tнабл rв n2 1 rв 2 б) по таблицам t–распределения (Распределение Стьюдента) находится. граничное значение критерия по уровню значимости α и числу степеней свободы k = n – 2. в) проверяется выполнение условия Tнабл. tкр Если условие выполняется, принимаем нулевую гипотезу: коэффициент корреляции r незначимо отличается от нуля, т.е. между случайными величинами отсутствует корреляционная связь. 21 Пример По выборке объема п = 122, извлеченной из нормали двумерной совокупности, найден выборочный коэффициент корреляции rв = 0,4. При уровне значимости 0,05 проверить нулевую гипотезу о равенстве нулю генерального коэффициента корреляции и конкурирующей гипотезе Н1: rг ≠ 0. 22 Решение. Найдем наблюдаемое значение критерия: Tнабл rв n2 1 rв 2 0,4 122 2 1 0,4 2 4,78 По условию, конкурирующая гипотеза имеет вид rг ≠ 0, поэтому критическая область — двусторонняя. По уровню значимости 0,05 и числу степеней свободы k = 122 — 2=120 находим по таблице Стьюдента tкр(0,05; 120) = 1,98. Поскольку Тнабл > tкр — нулевую гипотезу отвергаем. Другими словами, выборочный коэффициент корреляции значимо отличат от нуля, т. е. X и Y коррелированы. 23 Регрессионный анализ Корреляционный анализ • одновременно оценивает факт случайности или причинности зависимости от фактора • НО и одновременно степень неслучайности. Регрессионный анализ • является более высокой ступенью анализа • позволяет оценить как количественные характеристики степени связи между случайными величинами, так и характер этой связи 24 Регрессия Линия регрессии • зависимость среднего значения величины y от другой случайной величины х. • кривую, описывающую эту зависимость • Регрессия • Воспроизводимость 25 Задача • по парам экспериментальных данных (xi,yi) найти уравнение приближенной регрессии • оценить погрешность. Линия регрессии у = α + βх. • Метод наименьших квадратов n n n xi yi , i 1 i 1 n n n 2 x x x y . i i i i i 1 i 1 i 1 26 n n yi xi i 1 i 1 n Свободный член регрессии n n n i 1 i 1 i 1 n xi yi xi yi n 2 n xi xi i 1 i1 n 2 Коэффициент линейной регрессии 27 Преобразовав выражение n n y x i 1 i i 1 n получим другое выражение для свободного члена Отсюда уравнение регрессии i y x y x x, y – центр тяжести поля экспериментальных точек 28 n n n n xi yi xi yi i 1 i 1 i 1 n xi xi i 1 i 1 n n 2 n x y nxy y y x x i 1 n i i xi x 2 y/x n i 1 2 i 1 n n i 1 i 1 i 1 n yi xi xi yi n yi yi i 1 i 1 n 2 n i xi x 2 r Sy Sx i 1 n n i 2 r Sx . Sy 29 . y y r Sy Sx x x . x x y/ x ( y y ) Следствие: линии регрессии у по х и х по у не совпадают: y/ x x/ y y/ x x/ y r 2 • первая проходит более полого, • вторая – более круто 30 Задача регрессивного анализа • Установление параметров, которые описывают экспериментальную зависимость. • При условии, что эмпирические точки получены с некоторой погрешностью Регрессия • Подбор неизвестных коэффициентов аналитической зависимости f(x) 31 Этапы регрессионного анализа предварительная обработка ЭД; выбор вида уравнений регрессии; вычисление коэффициентов уравнения регрессии; проверка адекватности построенной функции результатам наблюдений. 32 Виды уравнения регрессии Линейная регрессия Полиномиальная регрессия Обобщенная регрессия 33 Линейная регрессия Метод наименьших квадратов y ( x ) x Метод медиан 34 Полиномиальная регрессия y a0 a1 x a2 x a3 x ... 2 3 35 Обобщенная регрессия F x a0 f 0 x a1 f1 x ... an f n x 15 x 0.1 i i 10 y 2 x 5 sin y l( t u) 5 n t F( t) 40 t sin n f ( t) 0 5 40 x 0 1 2 3 4 rnorm( n 102) 5 xt t 36 Спасибо за внимание! 37