Кафедра медицинской и биологической физики Тема: Основы регрессионного анализа. лекция № 12 для студентов 1 курса, обучающихся по специальности 030401– Клиническая психология к.п.н., доцент Шилина Н.Г. Красноярск, 2015 План лекции: Этапы регрессионного анализа Уравнение регрессии Метод наименьших квадратов Оценка качества уравнения регрессии Актуальность темы Регрессионный анализ - один из основных методов современной математической статистики. При изучении статистических зависимостей в технике, экономике, медицине, биологии и т.д. одним из важных моментов является установление вида зависимости между переменными, т.е. вида уравнения регрессии. Это связано в первую очередь с необходимостью прогнозирования исследуемых процессов. РЕГРЕССИОННЫЙ АНАЛИЗ Коэффициент корреляции является мерой качественной линейной связи между двумя случайными величинами. Однако хотелось бы иметь количественный показатель связи между случайными величинами. уравнение Y а bX можно рассматривать и как функциональное, и как регрессионное. В чем различие между функциональным и регрессионным уравнением? В функциональном уравнении X и Y – неслучайные числа, переменная Х, а также параметры A и B – известны, а переменную Y нужно вычислить. В регрессионном уравнении предполагается, что Х - случайное число, определенное точно, а Y – математическое ожидание случайного значения Y при заданном значении X. В регрессионном уравнении известны значения n пар {X(i),Y(i)} и нужно найти коэффициенты A и B. Этапы регрессионного анализа Метод регрессии позволяет установить, как количественно меняется один признак при изменении другого на единицу. Этапы регрессионного анализа: выбор формы зависимости (типа уравнения); вычисление коэффициентов выбранного уравнения; оценка достоверности полученного уравнения. Уравнение регрессии Уравнением регрессии у по х называется уравнение вида y = f(х), устанавливающее зависимость между значениями независимой переменной х и условными средними зависимой переменной y . Для линейной регрессии зависимость между х и у выражается уравнением: у = а + bx, где b характеризует скорость изменения зависимой переменной у при изменении переменной х (b=tg ); a – начальная ордината, определяет значение у при х = 0. График линейной зависимости у y=а+bх b=tgφ φ а х Коэффициент b называется коэффициентом линейной регрессии МЕТОД НАИМЕНЬШИХ КВАДРАТОВ U yi y( xi ) min n 2 i 1 где уi – экспериментальные точки; у(хi) – зависимость у(хi)=а+bхi n U yi (a bxi ) 0 a i1 n U yi (a bxi) xi 0 b i1 Для определения коэффициентов а и b необходимо решить систему линейных уравнений: n n i 1 i 1 na b xi yi n n n a xi b x i xiyi 2 i 1 i 1 i 1 Решение этой системы: xi yi n xiyi b 2 2 ( xi ) n x i 1 a ( yi b xi ) n Регрессионная прямая 140 y = 101,09x - 94,579 120 2 R = 0,9595 Вес, кг 100 80 60 40 20 0 0 0,5 1 1,5 Рост, м 2 2,5 ПРИМЕР: провести регрессионный анализ зависимости веса щитовидной железы (у) от площади скеннографического изображения (х). Вес щитовидной 12 железы (y) 59 62 95 102 23 203 270 122 41 Площадь 11 скеннографическог о изображения (x) 32 33 44 46 89 52 25 17 73 Перепишем ряды в порядке возрастания х: у х 12 23 41 59 62 95 102 122 203 270 11 17 25 32 33 44 46 52 73 89 300 250 Y 200 150 100 50 0 0 20 60 40 80 100 X Рис.2. Эмпирическая кривая регрессии Таблица 1. Расчет коэффициентов уравнения регрессии yi xi yi xi x i2 12 11 132 121 59 32 1888 1024 62 33 2046 1089 95 44 4180 1936 102 46 4692 2116 23 17 391 289 203 73 14819 5329 270 89 24030 7921 122 52 6344 2704 41 25 1025 625 422 989 10 59547 b 3,3319 17084 10 23154 989 3,332 422 a 41,71 10 Уравнение регрессии у = -41,71 +3,332 х Уравнение регрессии позволяет вычислять теоретические (вероятные) значения зависимой переменной по заданным значениям независимых переменных в области их изменения. Как правило, оно применяется только внутри этой области. Рассчитаем вес щитовидной железы при площади скеннограммы 40: у = -41,71 +3,33240=91,57 Y Теоретическая линия регрессии 300 250 200 150 100 50 0 -50 0 -100 20 40 60 80 100 X Рис.3. Теоретическая линия регрессии d 2 Оценка качества уравнения регрессии xi yi yiт d=yi –yiт d2 11 12 -5,058 17,058 290,9754 17 23 14,934 8,066 65,06036 25 41 41,59 -0,59 0,3481 32 59 64,914 -5,914 34,9754 33 62 68,246 -6,246 39,01252 44 95 104,898 -9,898 97,9704 46 102 111,562 -9,562 91,43184 52 122 131,554 -9,554 91,27892 73 203 201,526 1,474 2,172676 89 270 254,838 15,162 229,8862 dср = -0,0004 943,11 943,11 D 104,79 9 Sd 10,24 10 3,24 S D 10,24 t эксп 0,0004 3,24 0,00012 tтабл=2,26, tэксп<< tтабл Различие сравниваемых рядов НЕСУЩЕСТВЕННО (нулевая гипотеза подтверждается). Заключение Нами рассмотрены: Регрессионный анализ несгруппированных данных из нормально распределенных выборок. Методы проверки адекватности регрессионного анализа экспериментальным данным. РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА: Основная литература: Попов А.М. Теория вероятней и математическая статистика /А.М. Попов, В.Н. Сотников. – М.: ЮРАЙТ, 2011. – 440 с. Герасимов А. Н. Медицинская статистика: учебное пособие / А. Н. Герасимов. – М. : Мед. информ. агентство, 2007. – с. Балдин К. В. Основы теории вероятностей и математической статистики : учебник / К. В. Балдин. – М. : Флинта, 2010. – 488с. Учебно–методические пособия: Шапиро Л.А., Шилина Н.Г. Руководство к практическим занятиям по медицинской и биологической статистике Красноярск: ООО «Поликом». – 2003. БЛАГОДАРЮ ЗА ВНИМАНИЕ