МАТЕРИАЛЫ СЕМИНАРА ПО ПРОГРАММЕ STATISTIKA 1 ДИСПЕРСИОННЫЙ АНАЛИЗ 1.1 ТЕОРЕТИЧЕСКАЯ ЧАСТЬ. Данные в дисперсионном анализе представляются в виде таблицы Фактор Значения переменной Группа1 x11 x12 … x1n Группа2 x11 … X2n ………….. … … Группа m xm1 xm2 … Xmn Строки и столбцы этой таблицы отображают различные уровни фактора, а в ячейках таблицы расположены значения анализируемого признака (зависимой переменной). Такая таблица называется планом эксперимента. В терминологии факторного анализа группы переменных или категории называют факторами. Однофакторная дисперсионная модель имеет следующий вид: , где xij – значение исследуемой переменной, соответствующей i-й группе (i-му уровню фактора) с j-м порядковым номером (i=1, … ,m; j=1, …, n), µ – общая средняя, Fi – эффект, обусловленный влиянием i-го уровня фактора, εij – случайная компонента, или возмущение, вызванное влиянием неконтролируемых факторов, т.е. вариацией переменных внутри отдельного уровня факторов. Предположим, что элементы строк таблицы — реализации случайных величин Х1 Х2... ,Хт, имеющих нормальный закон распределения с математическими ожиданиями ар а2,…, аm и одинаковыми дисперсиями о2 Тогда задача сравнения средних в группах сведется к проверке нулевой гипотезы Обозначим слагаемые в правой части равенства, соответственно Θ1 и Θ2. Получим соотношение. Θ= Θ1 + Θ2 .Здесь Θ – общая, или полная, сумма квадратов отклонений, Θ1 – межгрупповая (факторная) сумма квадратов отклонений, Θ2 – внутригрупповая (остаточная) сумма квадратов отклонений. Полученное равенство показывает, что общая изменчивость признака, измеренная величиной Θ состоит из двух компонент, одна из которых характеризует изменчивость признака между группами (Θ1), вторая — изменчивость внутри групп (Θ2). В дисперсионном анализе используются не сами суммы квадратов отклонений Θ1 и Θ2, а усредненные квадраты отклонений S1, S2 получающиеся делением последних на число степеней свободы. Число степеней свободы определится как общее число наблюдений минус число связывающих их уравнений. Для Θ1 число степеней свободы равно l1=m-1, для Θ2 равно l2=m*n-m. В терминах модуля ANOVA (анализ вариаций или дисперсионный анализ) Θ1 называется эффектом, а Θ2 называют ошибкой. 1.2 ПРОЦЕДУРА FACTORIAL ANOVA. Используем файл Crabs (крабы) из библиотеки Examples. В файле приведены данные по количеству спутников (SATELLTS) — особей мужского пола у особей женского пола в зависимости от их цвета (COLOR), состояния клешней (SPINE), размеров (CATWIDTH, WIDTH - ширина) и веса (WEGHT). Если число спутников больше 0, то переменная Y в первом столбце принимает значение 1, в противном случае - 0. Общее число наблюдений (крабов) равно 173. On-way ANOVA (однофакторный дисперсионный анализ) позволяет оценить эффект одной группирующей переменной (одного межгруппового фактора) на одну или более зависимых переменных. Для анализа Main effects ANOVA (дисперсионный анализ главный эффектов) в диалоге Quick Specs Dialog можно задать до четырех категориальных предикторов. Затем программа произведет оценку модели главных эффектов. Данный тип планов часто используется в анализе и планировании промышленных экспериментов для оценки большого набора факторов в сильно раздробленных планах. Также данный тип планов используется при анализе сбалансированных неполных планов. В отличие от рассмотренных типов анализа, в Factorial ANOVA (многофакторный дисперсионный анализ) учитывается еще один возможный источник изменчивости – взаимодействие факторов. Планы содержат переменные, которые представляют комбинации различных уровней двух или более категориальных предикторов. В частности, полные факторные планы представляют все возможные комбинации уровней категориальных предикторов. Полный факторный план с двумя категориальными предикторами A и B, каждый из которых имеет по два уровня, будет являться 2 х 2 полным факторным планом. В диалоге Quick Specs Dialog также можно задать до четырех категориальных предикторов. Данные планы часто используются в анализе и планировании промышленных экспериментов. В Repeat measures ANOVA (дисперсионный анализ с повторениями) зависимые переменные содержат значения одного фактора повторных измерений. В диалоге Quick Specs Dialog также можно задать до четырех категориальных предикторов и две или более зависимые переменные, которые будут проинтерпретированы программой как повторные измерения одного фактора. Выберите группирующие переменные COLOR и SPINE, зависимые WIDTH, WEIGHT. Различные цвета и состояния клешней крабов являются межгрупповыми факторами. Если число зависимых переменных – более 1, то программа осуществит многомерный дисперсионный анализ. Чтобы вручную задавать коды для межгрупповых факторов, нажмите кнопку Factor Codes (коды факторов). Необязательно коды задавать вручную, так как программа задаст по умолчанию все коды выбранных переменных. Кодами предиктора COLOR являются цвета крабов: medium (серый), lightmed (светлосерый), dark (темный), darkmed (темно-серый). Кодами предиктора SPINE являются состояния клешней крабов: bothgood (обе клешни целые), oneworn (одна клешня повреждена), bоthwоrn (обе клешни повреждены). Äèñïåðñèîííûé àíàëèç ìíîãîôàêòîðíûé.exe - щелкните здесь, чтобы просмотреть презентацию работы в программе Statistika. 1.3 ДИСПЕРСИОННЫЙ АНАЛИЗ С ПОВТОРЕНИЯМИ. Предположим, что зависимая переменная CATWIDTH является результатом повторного измерения переменной WIDTH, и рассмотрим дисперсионный анализ с повторными измерениями. На стартовой панели General ANQVA/MANOVA в списке Type of analysis выделите Repeat measures ANOVА; в списке Specification method выберите Quick Specs Dialog. Щелкните no OK, откроется окно диалога ANOVA/MANOVA Repeat measures ANOVA. На вкладке Quick нажмите кнопку Variables. В появившемся окне выберите группирующие переменные COLOR и SPINE, зависимые WIDTH, CATWIDTH. Если нажать на кнопку ОК, то появятся результаты многомерного дисперсионно-. го анализа без учета повторных измерений, т.е. переменные WIDTH, CATWIDTH будут проинтерпретированы как зависимые переменные. Но, согласно нашему предположению, эти переменные рассматриваются как двухуровневый фактор повторных измерений. Чтобы ввести в программу фактор повторных измерений, нажмите кнопку Within effects (внутригрупповые эффекты). Откроется окно Specify within-subjects factor (задайте фактор повторных измерений). Данная процедура позволяет ввести только один фактор (переменную, многократно измеренную). При необходимости проведения анализа с большим числом факторов необходимо воспользоваться модулем GLM. Число уровней (No. of levels) соответствует количеству повторных измерений. Можно изменить число уровней и задать имя фактора, например, в поле Factor Name введите имя WIDTH1. Нажмите кнопку ОК. При помощи кнопки Factor codes в диалоге ANOVA/MANOVA Repeat measures ANOVA задайте коды уровней категориальных предикторов. Нажмите ОК. Появится уже знакомое нам окно ANOVA Results 1. На вкладке Quick нажмите кнопку All effects. Из появившейся таблицы Table of All Effects видно, что гипотеза о неравенстве средних верна для эффектов SPINE, WIDTH15COLOR, WIDTH1* SPINE. Äèñïåðñèîííûé àíàëèç ñ ïîâòîðåíèÿìè.exe - щелкните здесь, чтобы просмотреть презентацию работы в программе Statistika. 2 ФАКТОРНЫЙ АНАЛИЗ Главными целями факторного анализа являются сокращение числа переменных (редукция данных) и определение структуры взаимосвязей между переменными, т.е. классификация переменных. Поэтому факторный анализ используется или как метод сокращения данных, или как мегод классификации переменных. Сокращение достигается путем выделения скрытых общих факторов, объясняющих связи между наблюдаемыми признаками (переменными) объекта, т.е. вместо исходного набора переменных появится возможность анализировать данные по выделенным факторам, число которых значительно меньше исходного числа взаимосвязанных переменных. Совокупность точек, отображающих наблюдения в переменных эксперимента, представляет собой так называемую диаграмму рассеяния. Её центр координат можно изменять посредством преобразования матриц, т.е. с помощью линейных преобразований. Для достижения следующей цели – поиска наилучшего подпространства в общем виде – необходимо определить лишь еще одно важное свойство пространств, в которых мы собираемся работать. Это евклидовы пространства, поскольку их базисные векторы являются ортонормированными, т.е. ортогональны и их норма равна единице. РИСУНОК 1. ПОИСК ПЕРВОГО ОСНОВНОГО ФАКТОРА. РИСУНОК 2. ПРЕДСТАВЛЕНИЕ СВЯЗИ МЕЖДУ КРИТЕРИЯМИ МИНИМИЗАЦИИ И МАКСИМИЗАЦИИ. z Δ A y x G В основном процедура выделения факторов подобна вращению, максимизирующему дисперсию исходного пространства переменных. Исходные переменные могут быть зависимы друг от друга. Если так, то для каждой пары исходных переменных можно найти линию линейной регрессии. Если теперь определить новые координаты пространства, лежащего на найденных линиях регрессии, то общее количество переменных можно сократить на одну переменную, так как она будет связана зависимостью с другими. Вот нам удалось уменьшить число переменных на одну. Линию регрессии на диаграмме рассеяния можно рассматривать как ось X, повернув эту ось так, чтобы она совпала с прямой регрессии. Этот тип вращения называется вращением, максимизирующим дисперсию (варимакс), так как цель вращения заключается в максимизации изменчивости новой переменной (фактора) и минимизации разброса исходных переменных. Если пример с двумя переменными распространить на большее число переменных, то вычисления становятся сложнее, однако основной принцип представления двух или более зависимых переменных одним фактором остается в силе. Число наблюдаемых объектов может быть большим и взаимосвязи между ними чрезвычайно сложными. Однако наблюдая объект, выдвигаем гипотезу, что существует небольшое число факторов, которые влияют на измеряемые параметры. Естественно желание выделить как можно меньшее число скрытых общих факторов и чтобы выделенные факторы как можно точнее приближали наблюдаемые параметры, описывали связи между ними. Выделяемые таким образом факторы называют общими, так как они воздействуют на все признаки (параметры) объекта, а не на какой-то один признак или группу признаков. Эти факторы являются гипотетическими, скрытыми, их нельзя измерить непосредственно, однако существуют статистические методы их выделения. Исходные переменные выражаются через факторы следующим образом: , где ajr – весовой коэффициент j-й переменной на r-м общем факторе; fri – значение r-го общего фактора на i-м объекте исследования; dj – весовой коэффициент j-й переменной на j-м факторе; vji – значение j-го характерного фактора на i-м объекте исследования; j=1,…,n; i=1,…,N; r=1,…,m; m<<n