Практикум по теме 1 «Парная линейная регрессия» Методические указания по выполнению практикума Целью практикума является более глубокое усвоение темы 1, а также развитие следующих навыков: • Обоснование выбора парной линейной модели; • Построение модели выборочной парной линейной регрессии; • Оценка адекватности построенной модели, статистической значимости коэффициентов, построение доверительных интервалов, построение прогнозов; • Проверка основных предположений регрессионного анализа. Характерной особенностью эконометрического исследования является необходимость анализа достаточно большого объема эмпирических данных, выполнение многочисленных и порой громоздких вычислений. Практикум содержит как достаточно абстрактные задачи, целью которых в первую очередь являет закрепление теоретического материала, так и лабораторные работы, демонстрирующие практические методики прикладного эконометрического исследования. В то же время, лабораторные работы включают в себя задания (например, вычисление непосредственно по формулам) целью которых является выяснение студентами сути используемых теоретических приемов и формул. Такие задания отмечены в тексте звездочкой. Практические задания и лабораторные работы выполняются с использованием Microsoft Excel. Практикум не содержит систематического описания статистических функций Excel — в тексте описано их использование в рамках рассматриваемых задач. Отчет по лабораторной работе может быть представлен в виде файла Excel, содержащего расчеты, формулы и необходимые пояснения. Исходные данные, необходимые для выполнения работы, в практикуме не приведены и предоставляются преподавателем, ведущим практические занятия. Перед выполнением заданий практикума рекомендуется внимательно изучить материал контента темы 1, ответить на содержащиеся в нем вопросы для самостоятельного изучения, провести самостоятельный анализ всех разобранных примеров. Решение типовых задач. ТЗ 1.1. Вычислите для парной линейной регрессии значения коэффициентов детерминации R 2 и корреляции rxy если известно, что 1 n = 30 , 100 ∑ ei2 = 103 627,8 , y = 406,7 , i =1 n ∑(x − x ) i =1 i 2 x = 10,6 , 100 ∑(y − y) i =1 i 2 =417 700,5 , = 547,2 , S x = 4,34 , S y = 120 . Проверьте значимость rxy . Вычис- лите коэффициенты выборочной парной линейной регрессии. Проверьте статистическую значимость коэффициента b . Постройте для него доверительный интервал. Постройте прогноз для значения x p = 17 и доверительные интервалы прогноза. Решение. Для вычисления коэффициента детерминации воспользуемся определением: 30 ) ( yi − yi )2 ∑ 103627,8 =1 R 2 = 1 − i30 =1− ≈ 0,7519 . 417700,5 2 ∑ ( yi − y ) i =1 Так как R 2 = rxy2 , то rxy = 0,7519 ≈ 0,8671 . Для проверки статистической значимости коэффициента корреляции вычислим значение t -статистики коэффициента корреляции: 0,8671 tr = 28 = 9,21 . 2 1 - 0,8671 По таблице распределения Стьюдента с 28 степенями свободы и для уровня значимости 5% определяем критическое (табличное) значение: tтабл = 2,0484 . Так как tr > tтабл , то гипотезу H 0 : ρ yx = 0 следует отклонить и, следовательно, признать коэффициент rxy статистически значимым. Для нахождения коэффициентов выборочной парной линейной регрессии воспользуемся формулами связи коэффициентов с выборочными характеристиками: s 120 b = y rxy = ⋅ 0,8671 ≈ 23,9752 sx 4,34 и s a = y − y rxy x = 406,7 − 23,9752 ⋅ 0,8671 = 152,7969 . sx Для того, чтобы проверить статистическую значимость коэффициента регрессии, прежде всего, необходимо вычислить значение выборочного остаточного среднего квадратического отклонения: 2 n ∑e 2 i 103627,8 ≈ 60,8358 n−2 28 Теперь можно определить стандартную ошибку коэффициента: S 60,8358 mb = ост = = 2,6007 , sx n 4,35 30 с помощью которой находим соответствующую t -статистику b 23,9752 tb = = ≈ 9,21 . mb 2,6007 S ост = i =1 = Так как tb > tтабл (значение tтабл , как и раньше, взято из таблицы распределения Стьюдента при 28 степенях свободы и уровне значимости 5%), то гипотезу H 0 : β = 0 следует отклонить и, следовательно, признать коэффициент b статистически значимым. Левая граница доверительного интервала для этого коэффициента, соответствующего уровню значимости 5%, имеет значение b − mbtтабл ≈ 18,63 , правая граница — b + mbtтабл ≈ 29, 28 . Прогноз для значения x p = 17 вычисляется непосредственной подстановкой этого значения в уравнение регрессии: ) y p = 152,7969 + 23,9752 ⋅ 17 ≈ 560,07 . Стандартная ошибка прогноза функции регрессии (среднего значения) mEx ( y ) = Sост ( x p − x )2 1 1 (17 − 10,6)2 + = 60,8358 + ≈ 20,01, 30 30 30 547,2 2 ∑ ( xi − x ) i =1 а стандартная ошибка прогноза индивидуально значения ( xp − x )2 1 1 (17 − 10,6) 2 ) m y p = Sост 1 + + = 60,8358 1 + + ≈ 64,04 . 30 30 30 547,2 2 ∑ ( xi − x ) i =1 Тогда доверительный интервал прогноза среднего значения, соответствующий 5% уровню значимости, имеет левую границу, равную ) ) y p − mEx ( y ) tтабл ≈ 519,09 и правую границу — y p + mEx ( y ) tтабл ≈ 601,06 . Левая граница доверительного интервала прогноза индивидуального значе) ) ния y p − my) p tтабл ≈ 428,89 , правая граница — y p + my) p tтабл ≈ 691,26 . Задания практикума. 1.1. По выборке объемом 10 наблюдений получены следующие результаты: 3 S x2 = 34,49 , 10 ∑x i =1 2 i S y2 = 66,93 , = 12000 , 10 ∑y i =1 2 i 10 ∑ xi = 100 , i =1 10 ∑ yi = 200 , i =1 10 ∑x y = 21000 , i i i =1 = 45000 . Оцените коэффициент корреляции rxy . Проверьте его значимость. 1.2. Вычислите коэффициент корреляции, проверьте его статистическую значимость X 1 2 3 4 5 Y 0 2 3 5 6 1.3 По выборке объемом 10 наблюдений получены следующие результаты: 10 ∑ xi = 100 , i =1 10 ∑y i =1 2 i 10 ∑ yi = 200 , i =1 10 ∑ xi yi = 21000 i =1 10 ∑x i =1 2 i = 12000 = 45000 . Оцените по методу наименьших квадратов коэффициен- ты парной линейной регрессии y на x . 1.4. Вычислите коэффициенты выборочной парной линейной регрессии, если известно, что S ост = 26,5 , x = 21, y = 112,45 , S x2 = 64 , SY2 = 225 , rxy = 0,8 . 1.5. По имеющимся данным оцените параметры парной линейной регрессионной зависимости y = α + β t . t 1 3 6 y 4 5 8 1.6. Вычислите для парной линейной регрессии значения коэффициентов детерминации R 2 и корреляции rxy если известно, что n = 100 , 100 ∑e i =1 2 i = 1100 , y = 470 , 100 ∑(y − y) i =1 2 i = 22500 , S x2 = 115 , S y2 = 225 . Про- верьте значимость rxy . 1.7. Вычислите для парной линейной регрессии значения коэффициентов детерминации R 2 и корреляции rxy если известно, что n = 100 , ) , ∑ ( yi − y ) 2 = 10000 , 100 y = 470 , i =1 100 ∑(y − y) i =1 i 2 = 22500 , S x2 = 121 , S = 225 .Проверьте значимость rxy . 1.8. Проверьте значимость выборочного коэффициента корреляции rxy = 0,92 если известно, что n = 27, Sост = 120000, x = 171, y = 28 . 1.9. Проверьте значимость и постройте доверительные интервалы для коэффициентов парной линейной регрессии (в таблице приведены результаты расчета с помощью функции ЛИНЕЙН): 23,67709724 147,0581 2,416418105 28,23179 2 y 4 0,774210261 57,90167 96,00917851 28 321880,6662 93872,89 1.10. Постройте доверительный интервал прогноза условного математического ожидания (функции регрессии) если известно, что x p = 20 , x = 10,83 , S x2 = 19,8, (в таблице приведены результаты расчета с помощью функции ЛИНЕЙН): 23,67709724 147,0581 2,416418105 28,23179 0,774210261 57,90167 96,00917851 28 321880,6662 93872,89 1.11. Постройте доверительный интервал прогноза индивидуального значения, если известно, что x p = 20 , x = 10,83 , S x2 = 19,8, (в таблице приведены результаты расчета НЕЙН): 23,67709724 2,416418105 0,774210261 96,00917851 321880,6662 с помощью функции ЛИ147,0581 28,23179 57,90167 28 93872,89 Лабораторная работа 1.1. «Парная линейная регрессия» Задание По выборке необходимо построить эмпирическую парную линейную регрессию, проверить ее статистическую значимость и построить прогноз. 1. Для заданных исходных данных постройте поле корреляции — диаграмму зависимости показателя y от фактора x . При построении выберите тип диаграммы «Точечная» (без отрезков, соединяющих точки). 2*. Вычислите выборочные характеристики: — выборочные средние x и y (функция СРЗНАЧ); — выборочные дисперсии S x2 и S y2 (функция ДИСПР); — выборочное среднее квадратические отклонения S x и S y (функция СТАНДОТКЛОНП); — выборочный коэффициент корреляции rxy (функция ПИРСОН или КОРРЕЛ). 3. Вычислите коэффициенты выборочной линейной регрессии. 5 Для вычисления коэффициентов регрессии воспользуйтесь встроенной функцией ЛИНЕЙН (функция находится в категории «Статистические»), обратите внимание, что эта функция является функцией массива, поэтому ее использование подразумевает выполнение следующих шагов: 1) В свободном месте рабочего листа выделите область ячеек размером 5 строк и 2 столбца для вывода результатов; 2) В Мастере функций (категория «Статистические») выберите функцию ЛИНЕЙН. 3) Заполните поля аргументов функции: Известные_значения_y — адреса ячеек, содержащих значения признака y ; Известные_значения_x — адреса ячеек, содержащих значения фактора x ; Константа — значение (логическое), указывающее на наличие свободного члена в уравнении регрессии: укажите в поле Константа значение 1, тогда свободный член рассчитывается обычным образом (если значение поля Константа равно 0, то свободный член полагается равным 0); Статистика — значение (логическое), которое указывает на то, следует ли выводить дополнительную информацию по регрессионному анализу или нет: укажите в поле Статистика значение равное 1, тогда будет выводиться дополнительная регрессионная информация (если Статистика=0, то выводятся только оценки коэфициентов уравнения регрессии); 4) После того, как будут заполнены все аргументы функции, нажмите комбинацию клавиш <CTRL>+<SHIFT>+<ENTER>. Результаты расчета параметров регрессионной модели будут выведены в виде следующей таблицы: Значение коэффициента b Значение коэффициента a Стандартная ошибка mb коСтандартная ошибка ma коэфэффициента b фициента a Стандартное отклонение осКоэффициент детерминации 2 татков S ост R Число степеней свободы, равЗначение F -статистики ное n − 2 Регрессионная сумма квадраОстаточная сумма квадратов n n ) тов ∑ ( yi − y )2 ∑ ei2 i =1 i =1 4*. Проверьте полученные значения коэффициентов a , b непосредственным вычислением по формулам. 6 5. Запишите найденной уравнение эмпирической регрессии. Дайте интерпретацию коэффициенту b . Вычислите по уравнению эмпири) ческой регрессии значения yi = a + bxi , i = 1, n . 6. Постройте на корреляционном поле прямую выборочной ли) нейной регрессии по точкам yi = a + bxi , i = 1, n . ) 7. Вычислите остатки ei = yi − yi . 8. Постройте график остатков (тип диаграммы — «Точечная»). 9. Найдите величину средней ошибки аппроксимации ) 1 n yi − yi A= ∑ 100% . n i=1 yi 10*. Вычислите коэффициент детерминации R 2 непосредственно по формуле. Дайте интерпретацию. Сравните полученное значение коэффициента детерминации с вычисленным ранее с помощью функции КОРЕЛЛ выборочным коэффициентом корреляции. 11*. Рассчитайте значение S ост , стандартные ошибки параметров линейной регрессии и коэффициента корреляции непосредственно по формулам. 12. Вычислите значения t -статистик коэффициентов выборочной регрессии. Проверьте статистическую значимость полученных значений коэффициентов регрессии и коэффициента корреляции. Табличные значения определите с помощью функции СТЬЮДРАСПОБР. Аргументы этой функции: Вероятность — уровень значимости α (можно принять равным 0,05, т.е. 5%); Степени_свободы — число степеней свободы, для парной линейной регрессии равно n − 2 , где n — число наблюдений. 13. Проверьте значимость в целом полученного уравнения регрессии по критерию Фишера. Значение Fтабл определите с помощью функции FРАСПОБР. Аргументы этой функции: Вероятность — уровень значимости α (можно принять равным 0,05, т.е. 5%); Степени_свободы1 — число степеней свободы числителя, для парной регрессии равно 1 (т.к. один фактор); Степени_свободы2 — число степеней свободы знаменателя, для парной регрессии равно n − 2 , где n — число наблюдений. 14. Вычислите доверительные интервалы параметров линейной регрессии. Дайте им интерпретацию. ) 15. Постройте прогноз y p при значении фактора x на 30% превышающего его среднее значение. 16. Вычислите стандартные ошибки прогноза функции регрессии (среднего значения) и индивидуального значения, постройте доверительные интервалы полученных прогнозов. 7 Дайте им интерпретации. 17. Получите результаты регрессионного анализа с помощью средства Регрессия из Пакета Анализа (Сервис/Анализ данных/Регрессия). Пакет анализа, при необходимости, может быть активирован в пункте Надстройки меню Сервис. В бланке запроса этой процедуры поля Входной интервал y, Входной интервал x, Константа имеют тот же смысл, что и для функции ЛИНЕЙН. В поле Метки поставьте флажок, если первая строка в указанном диапазоне данных содержит названия столбцов. Поставьте флажок в полях Остатки, График остатков, График подбора для того, чтобы получить соответствующую дополнительную информацию. 8