частными коэффициентами регрессии

реклама
y  f (x)  
Нелинейная регрессия.
Для нелинейной регрессии используются различные функции:
синусоида y  a * sin(bx  c), показательная y  a * e bx,
гиперболическая y  a /(1  bx)
Чаще всего полиномы низких степеней
y  a  b1 x  b2 x 2  ...  bn x n
Коэффициенты ( a, b1 , b2) рассчитываются методом наименьших квадратов
y

2
y
 min
Степень нелинейной зависимости
оценивается корреляционным
отношением
η  1  σ δ2 / σ 2y ,
 изменяется от 0 до 1 и характеризует
долю дисперсии, «объяснённую»
регрессионной функцией в общей
дисперсии.
Выбор порядка полинома при аппроксимации
нелинейной зависимости.
Критерием выбора наилучшего порядка полинома является
дисперсия отклонений фактических значений от теоретических
 k2 
SS ошибки
df ошибки
df ошибки  n  k
n - количество наблюдений
k - количество коэффициентов в
уравнении регрессии
Многомерная статистическая модель.
Многомерная статистическая модель.
Многомерная статистическая модель состоит из совокупности множества
сопряженных случайных величин (называемых многомерными случайными
векторами) и выражается матрицей свойств размером k  n:
(n – число наблюдений; k – число свойств).
х11
х12  х1k
x21
x22  x2 k


xn1
xn 2  xnk


В основе многомерной статистической модели лежит гипотеза о
том, что измеренные значения являются независимыми случайными
величинами (векторами), т.е. строки матрицы можно располагать в
любом порядке.
Между столбцами матрицы связь может присутствовать.
Многомерная случайная величина
изображается точкой в многомерном
признаковом пространстве.
Обобщением ковариации двух величин:
Covx , x
1 n
  ( xi  x )( xi  x )   2
n i 1
является матрица дисперсий и ковариаций:
Обобщением корреляции двух величин:
является матрица корреляаций:
Covx , y
1 n
  ( xi  x )( yi  y )
n i 1
 12
Cov21

Covk1
r
Cov12  Cov1k
 22  Cov2 k



Covk 2   k2
cov( x; y )
sx s y
1 r12
r21 1
 
rk1 rk 2
 r1k
 r2 k
 
 1
В многомерной модели существуют
частные и множественные коэффициенты корреляции
Частные коэффициенты корреляции:
где
rxy| z
rxy| z 
rxy  rxz ryz
(1  rxz2 )(1  ryz2 )
- частный коэффициент корреляции между случайными величинами x и y
при контроле случайной величины z
rxy , rxz , ryz
- коэффициенты линейной корреляции Пирсона между случайными
величинами x и у, x и z, y и z.
Значимость частного коэффициента корреляции проверяется с помощью
t-критерия. В простейшем случае
(число степеней свободы = n-3).
Частные коэффициент корреляции позволяют исключить влияние на
корреляцию между двумя величинами третьей величины (или множества
других величин) в многомерногной модели.
Частные коэффициенты корреляции могут оказаться полезными для
выявления ложных связей (наведённых корреляций).
Частные коэффициенты корреляции
матрица парных коэффициентов
линейной корреляции Пирсона
частный коэффициент корреляции между Ag и Zn
после исключения влияния Pb
Ag
0.45
Pb
Zn
Корреляция между Ag и Zn возможно является наведённой корреляцией между Pb и Zn
Частные коэффициенты корреляции
Матрица парных коэффициентов
линейной корреляции Пирсона
Частные корреляции
Корреляции Pb-Cd, Ag-Cd, Ag-Zn
возможно являются ложными.
Множественная линейная регрессия.
Коэффициент множественной корреляции.
Модель множественной регрессии:
n
yi  a   bi xi   i
i 1
yi
a
bi
xi
i
n
зависимая переменная
свободный член
коэффициенты регрессии
независимые переменные
ошибка
количество независимых переменных.
Назначение множественной регрессии состоит в анализе связи между
несколькими независимыми переменными (называемыми также регрессорами,
предикторами, факторами) и зависимой переменной (откликом).
Множественная регрессия позволяет
более точно прогнозировать зависимую переменную:
множественная линейная регрессия
простая линейная регрессия
Ag  4,88  7,29 Pb  32,88Zn
Ag  0,06395  7,932967 Pb
дисперсия ошибки
 k2 
SS ошибки
df ошибки
корреляционное отношение
η  1 σ / σ 
2
δ
2
y
ssрегрессии / df регрессии
ss общая / df общая
Кроме того, множественная регрессия даёт возможность оценить
относительный вклад каждой независимой переменной (каждого
предиктора) в предсказание зависимой переменной:
n
yi  a   bi xi   i
i 1
Коэффициенты регрессии bi называются частными коэффициентами регрессии.
Они показывают, насколько изменяется зависимая переменная yi при увеличении
соответствующего фактора xi на единицу шкалы его измерения при
фиксированных (постоянных) значениях других факторов, входящих в уравнение
регрессии:
65,9367 - 58,6503 = 7,2864
Коэффициенты регрессии bi непосредственно не сопоставимы между
собой, так как зависят от единиц измерения факторов xi.
Чтобы сделать эти коэффициенты сопоставимыми, вычисляют
стандартные коэффициенты регрессии (Бета-коэффициенты):
i 
bi s xi
sy
i
bi
s xi
sy
– стандартный коэффициент регрессии переменной xi
– частный коэффициент регрессии переменной xi
- оценка стандартного отклонения переменной xi
- оценка стандартного отклонения зависимой переменнойy
Частные коэффициенты регрессии используются для расчёта величины зависимой
переменной (для предсказания её значения при заданных значениях независимых
переменных xi).
Ag  4,88  7,29 Pb  32,88Zn  7985,05Cd
Стандартизированные коэффициенты регресси позволяют оценить относительный
вклад (влияние) каждой независимой переменной на зависимую переменную.
Наибольшее вклад вносит Pb, затем Zn. Вклад Cd несущественный.
Если исходные данные стандартизировать, то частные коэффициенты регрессии будут равны стандартным.
Проверка адекватности модели множественной регрессии.
Значимость регрессии проверяется с помощью дисперсионного анализа:
Схема дисперсионного анализа для оценки значимости регрессии.
Источник изменчивости
Сумма
квадратов
Регрессия
ss r
ssd
sst
Отклонение (ошибка)
Общая дисперсия
SSr   ( yiR  y ) 2
Число степеней
cвободы (df)
Средние квадраты
(дисперсии)
F-критерий
m
MSr=SSr/dfr
MSr/MSd
n-m-2
MSd=SSd/dfd
SSt   ( yi  y ) 2
n-1
SSd   ( yir  yi ) 2
SSt  SS r  SS d
yir- i-oe значение зависимой переменной, расчитанное по уравнению регрессии
yi- измеренное (наблюдаемое) значение i-oй переменной
yi - среднее значение зависимой переменной
m - количество независимых переменных
n - количество наблюдений (объём выборки)
Значимость (адекватность) полученного
соотношения считается установленой,
если расчитанное значение F-критерия
превысит критическое при заданном
уровне значимости и степенях свободы
числителя m и знаменателя n-m-1.
Проверка адекватности модели множественной регрессии.
2
Величина R 
SS R
называется коэффициентом детерминации.
SST
Коэффициент детерминации характеризует ту долю изменчивостивости
зависимой переменной, которую «объясняет» регрессия.
R 2 может принимать значения от 0 (полное отсутствие связи) до 1
(функциональная зависимость).
Чем больше значение коэффициента детерминации, тем надёжнее оценки
зависимой переменной.
Величина R  R 2 называется множественным коэффициентом корреляции.
Проверка адекватности модели множественной регрессии.
Оценка значимости коэффициентов регрессии bi
осуществляется с помощью t- критерия Стьюдента:
ti 
sb2i
s y2
| bi |
sb2i
- оценка дисперсии коэффициента регрессии:
sb2i 
s y2 (1  R 2 )
s x2i n(1  R 2 )
оценка дисперсии зависимой переменной
s x2i оценка дисперсии i-ой независимой переменной
n
количество наблюдений
R2
коэффициент детерминации
Параметр bi модели регрессии признается статистически значимым, если рассчитанное
значение t превысит критическое при заданном уровне значимости α и числе степеней
свободы k = n-m-1 (n- объём выборки, m – количество независимых переменных), т.е при
t  t кр ( ,k )
выполнении неравенства:
В рассматриваемом примере коэффициент при Cd незначим.
Предположения и ограничения множественной регрессии.
Предположение линейности.
Предполагается, что связь между переменными является
линейной. На практике это предположение никогда не может быть
подтверждено;
Процедуры множественного регрессионного анализа в
незначительной степени подвержены воздействию малых отклонений от
этого предположения. Однако всегда имеет смысл посмотреть на
двумерные диаграммы рассеяния переменных, представляющих интерес.
Если нелинейность связи очевидна, то можно рассмотреть или
преобразования переменных или явно допустить включение нелинейных
членов.
Ag
Cd
Pb
Zn
Предположения и ограничения множественной регрессии.
Предположение нормальности.
В множественной регрессии предполагается, что остатки
(предсказанные значения минус наблюдаемые) распределены нормально.
Хотя большинство тестов (в особенности F-тест) довольно устойчивы по
отношению к отклонениям от этого предположения, прежде чем сделать
окончательные выводы, стоит рассмотреть гистограммы или нормальные
вероятностные графики остатков для визуального анализа их распределения.
Ограничения множественной регрессии.
Основное концептуальное ограничение всех методов регрессионного анализа
состоит в том, что они позволяют обнаружить только числовые зависимости, а
не лежащие в их основе причинные связи. Например, можно обнаружить
сильную положительную связь (корреляцию) между разрушениями,
вызванными пожаром, и числом пожарных, участвующих в борьбе с огнем.
Следует ли заключить, что пожарные вызывают разрушения? Конечно,
наиболее вероятное объяснение этой корреляции состоит в том, что размер
пожара (внешняя переменная, которую забыли включить в исследование)
оказывает влияние, как на масштаб разрушений, так и на привлечение
определенного числа пожарных (т.е. чем больше пожар, тем большее
количество пожарных вызывается на его тушение). Хотя этот пример довольно
прозрачен, в реальности при исследовании корреляций альтернативные
причинные объяснения часто даже не рассматриваются.
Выбор числа переменных.
Множественная регрессия - предоставляет пользователю "соблазн"
включить в качестве предикторов все переменные, какие только
можно, в надежде, что некоторые из них окажутся значимыми.
Большинство авторов советуют использовать, по крайней мере, от 10
до 20 наблюдений на одну переменную, в противном случае оценки
регрессионной линии будут, вероятно, очень ненадежными и, скорее
всего, невоспроизводимыми для желающих повторить это
исследование.
Проблема размерности модели связи (уравнения регрессии) - одна из
основных проблем построения множественного уравнения регрессии.
Она решается на основе эвристических или многомерных статистических
методов анализа. К ним относятся: метод экспертных оценок, шаговая
регрессия, анализ на мультиколлинеарность.
Шаговый регрессионный анализ.
позволяет выбрать наиболее информативные предикторы.
Существуют 2 схемы шаговой множественной регрессии:
Пошаговая с включением:
первым в уравнение включается фактор, наиболее тесно
коррелирующий с Y, вторым в уравнение включается тот фактор, который в
паре с первым из отобранных дает максимальное значение множественного
коэффициента корреляции, и т.д.
Пошаговая с исключением:
после построения уравнения регрессии и оценки значимости всех
коэффициентов регрессии из модели исключают тот фактор, коэффициент при
котором незначим и имеет наименьший коэффициент доверия t. После этого
получают новое уравнение множественной регрессии и снова производят оценку
значимости всех оставшихся коэффициентов регрессии. Процесс исключения
факторов останавливается на том шаге, при котором все регрессионные
коэффициенты значимы. При использовании этой схемы пошаговой регрессии
следует иметь в виду негативные последствия мулътиколлинеарности.
Мультиколлинеарность.
Под мультиколлинеарностью понимается высокая корреляция между
независимыми переменными (факторами), включенными в модель.
Наличие мультиколлинеарности между признаками приводит к:
завышению параметров модели
снижению точности оценок регрессионных коэффициентов (стандартные ошибки
коэффициентов получаются слишком большими);
невозможности оценить статистическую значимость коэффициентов регрессии с
помощью t –критерия и, как следствие, некорректное введение в анализ тех или
иных переменных;
резкому возрастанию чувствительности коэффициентов регрессии к
особенностям исходных данных, так что добавление, например, небольшого
числа наблюдений может привести к сильным сдвигам в значениях βi
В решении проблемы мультиколлинеарности можно выделить несколько этапов:
- установление наличия мультиколлинеарности;
- определение причин возникновения мультиколлинеарности;
- устранение мультиколлинеарности.
Индикатором возникновения мультиколлинеарности между независимыми признаками
(предикторами) является превышение парным коэффициентом корреляции величины 0.8.
В модуле множественной регрессии пакета STATISTICA имеется возможность оценить
независимые переменные на мультиколлинеарность:
Толерантность = 1 – R2 соответствующей переменной со всеми остальными переменными,
включенными в уравнение. Значение близкое к 0 указывает на мультиколлинеарность.
R-квадр. = R2 соответствующей переменной со всеми остальными переменными, включенными
в уравнение. Значение близкое к 1 указывает на мультиколлинеарность.
Частная корр. – коэффициент частной корреляции между соответствующей переменной и зависимой
переменной после учета влияния всех остальных независимых переменных в уравнении.
Получастная корр. – доля дисперсии, объясняемая соответствующей переменной в общей дисперсии
зависимой переменной Y.
В качестве метода борьбы с мультиколлинеарностью чаще всего
используется гребневая регрессия. Гребневые оценки параметров регрессии
хоть и смещены, но имеют лучшие характеристики точности. Суть метода
состоит в добавлении к диагонали корреляционной матрицы константы λ
(лямбда) после чего матрица пересчитывается вновь, что приводит к
искусственному занижению коэффициентов корреляции.
Существует несколько численных методов расчета
параметра, но чаще используют простой
эмпирический подход: выбирают такой параметр λ,
при котором коэффициенты стабилизируются и
при дальнейшем увеличении параметра
изменяются мало. Значение принятого параметра λ
является мерой смещения оценок от истинного
значения, поэтому стараются не придавать λ
слишком больших значений. Обычно λ выбирают
меньше 0,5, а шаг при подборе выбирают
небольшим, например, 0,02.
Оценка существенности связи
1 n | yi  yir |
A 
*100%
n i 1 | yi |
yi
- наблюдаемое значение
yir
- предсказанное значение
Если средняя ошибка аппроксимации A не превышает 12 - 15%,
то уравнение построено верно.
При проверке адекватности уравнения регрессии исследуемому процессу
возможны следующие варианты:
1. Построенная модель на основе ее проверки по критерию Фишера в
целом адекватна, и все коэффициенты регрессии значимы. Такая модель
может быть использована для принятия решений к осуществлению прогнозов.
2. Модель по критерию Фишера адекватна, но часть коэффициентов
регрессии незначима. В этом случае модель пригодна для принятия некоторых
решений, но не для прогнозов.
3. Модель по критерию Фишера адекватна, но все коэффициенты
регрессии незначимы. Модель в этом случае отвергается. На ее основе никаких
решений принимать нельзя.
Отрицательным свойством уравнений регрессии является то, что
хорошо аппроксимируются только те значения результативного признака,
которые стоят в середине вариационного ряда индивидуальных значений.
Ошибка аппросимации не превышает 1 - 2%;
Ошибка аппроксимации на концах исходного ряда может достигать 50%;
Кнопка Анализ остатков запускает процедуру всестороннего анализа остатков регрессионного
уравнения (рис. ). Остатки - это разности между опытными и предсказанными значениями зависимой
переменной в построенной регрессионной модели.
Рис.39 . Диалоговое окно (Анализ остатков)
Вкладка Выбросы (Redundancy) предназначена для поиска выбросов. Выбросы - это остатки,
которые значительно превосходят по абсолютной величине остальные. Выбросы показывают опытные
данные, которые являются не типичными по отношению к остальным данным, и требует выяснения
причин их возникновения. Выбросы должны исключаться из обработки, если они вызваны ошибками
измерения или ввода данных. Для выделения имеющихся в регрессионных остатках выбросов
предложен ряд показателей:
Расстояния Кука (Cook's Distance) - это мера влияния соответствующего наблюдения на
уравнение регрессии. Эта величина показывает разницу между вычисленными β-коэффициентами и
значениями, которые получились бы при исключении соответствующего наблюдения. В адекватной
модели все расстояния Кука должны быть примерно одинаковыми; если это не так, то имеются
основания считать, что соответствующее наблюдение (или наблюдения) смещает оценки
коэффициентов регрессии.
Расстояние Махаланобиса (Mahalns. Distance) - показывает насколько каждый случай или точка в р-мерном
пространстве независимых переменных отклоняется от центра статистической совокупности. Независимые
переменные в уравнении регрессии можно представлять точками в многомерном пространстве (каждое
наблюдение изображается точкой). В этом пространстве можно построить точку центра. Эта "средняя точка" в
многомерном пространстве называется центроидом, т.е. центром тяжести. Расстояние Махаланобиса
определяется как расстояние от наблюдаемой точки до центра тяжести в многомерном пространстве,
определяемом коррелированными (неортогональными) независимыми переменными (если независимые
переменные некоррелированы, расстояние Махаланобиса совпадает с обычным евклидовым расстоянием).
Эта мера позволяет, в частности, определить является ли данное наблюдение выбросом по отношению к
остальным значениям независимых переменных.
Стандартизированные остатки - это стандартизованные значения остатков,
вычисленные как разница между наблюдаемыми значениями и
предсказанными, деленная на остаточную среднеквадратичную ошибку.
Удаленные остатки - это значения остатков для соответствующих
наблюдений, которые были исключены из процедуры регрессионного
анализа. Если удаленный остаток значительно отличается от
соответствующего стандартизированного значения остатка, то, возможно,
это наблюдение является выбросом, поскольку его исключение
существенно изменяет уравнение регрессии.
Средства борьбы с выбросами. Целью всех описанных статистик является
обнаружение выбросов. Напомним, что, особенно при малых N (меньших
100), оценки множественной регрессии (B-коэффициенты) не являются
устойчивыми. Другими словами, отдельные экстремальные наблюдения
могут оказать значительное влияние на окончательные оценки.
Следовательно, желательно всегда просматривать эти статистики
(используя эти или описанные далее опции) и повторить полный
регрессионный анализ вновь после удаления всех выбросов. Другой
альтернативой является проведение анализа данных, используя регрессию,
основанную на абсолютных отклонениях, а не на квадратах отклонений, тем
самым ослабляется влияние выбросов. Модуль Нелинейного оценивания
позволяет провести такого рода анализ.
Внимательный анализ остатков позволяет оценить адекватность модели.
Остатки должны быть нормально распределены, со средним значением
равным нулю и постоянной, независимо от величин зависимой и
независимой переменных, дисперсией.
О нормальности остатков можно судить по графику остатков на
нормальной вероятностной бумаге. Чем ближе распределение к
нормальному виду, тем лучше значения остатков ложатся на прямую
линию.
Важно просмотреть графики зависимости остаток от каждой из
независимых переменных. Их легко просмотреть при помощи кнопки
Остатки и независимые переменные (Resids & indep. var.). Остатки должны
быть нормально распределены, т.е. на графике они должны представлять
приблизительно горизонтальную полосу одинаковой ширины на всем ее
протяжении. Коэффициент корреляции (r) между регрессионными
остатками и переменными должен равняться нулю.
Статистическая значимость коэффициентов множественной регрессии и близкое к
единице значение коэффициента детерминации R2 не гарантируют высокое качество
уравнения множественной регрессии. Поэтому следующим этапом проверки качества
уравнения множественной регрессии является проверка выполнимости предпосылок
МНК.
Рассмотрим популярную в регрессионном анализе статистику Дарбина-Уотсона.
При статистическом анализе уравнения регрессии на начальном этапе часто
проверяют выполнимость одной предпосылки: условия статистической независимости
отклонений между собой. При этом проверяется некоррелированность соседних
величин ei,i=1,2,…n..
Для анализа коррелированности отклонений используют статистику Дарбина-Уотсона
Скачать