Основы биостатистики Анализ различий между группами Различия между группами ■ Качественные переменные ИЛИ ■ Количественные переменные Качественные переменные Качественые переменные ■ Парные наблюдения ИЛИ ■ Не парные наблюдения Парные наблюдения ■ Метод McNeimar (b - число пар, в которых у лиц, подвергшиеся воздействию заболевание развилось, а у контрольных лиц - нет. с - число пар, в которых у лиц, подвергшихся воздействию заболевание не развилось, а у контрольных развилось) b OR = c 2 (| b − c | −1) 2 χ = b+c Качественные переменные D+ D- RF+ a b RF- c d Таблица 2х2 или четырехпольная таблица для непарных наблюдений Непарные наблюдения ■ ■ Все частоты более 5 - критерий χ2 Хотя бы одна частота менее 5 точный метод Фишера или критерий χ2 с поправкой Йетса на непрерывность Критерий χ2 ■ Пограничное значение χ2 =3,84 χ ( a • d − b • c) • N = (a + b )• (a + c )• (c + d ) • (b + d ) 2 2 Критерий χ2 ■ Если таблица, больше чем 2х2 (r - количество строк, c - количество столбцов) χ =∑ 2 ij (O ij − Eij ) 2 Eij df = (r − 1)• (c − 1) Eij строки • ∑ столбца ∑ = ∑ таблицы i j Точный метод Фишера ■ Прямое вычисление вероятности случайного формирования данной таблицы. Расчет весьма сложен, но поддерживается большинством программ Анализ качественных переменных Анализ качественных переменных Анализ качественных переменных Анализ качественных переменных (SAS) Анализ качественных переменных (SAS) Количественные переменные Количественные переменные ■ Две группы ИЛИ ■ Более двух групп Две группы ■ Парные наблюдения ИЛИ ■ Непарные наблюдения Парные наблюдения ■ Нормальное распределение - парный t-тест ■ Отличное от нормального распределение - тесты знаков, Вилкоксона Парный t-тест ■ Два варианта расположения данных: – Разности в одной колонке (до-после) – Две колонки (принято в системе Statistica) Парный t-тест ■ Разности в одной колонке Парный t-тест Парный t-тест Парный t-тест Непараметрические тесты ■ Тест знаков - грубый, но простой ■ до после знак 10 15 + 8 9 + 30 35 + 1 4 + 9 10 + 15 27 + по таблицам для 6 (+) p=0,05 ■ Тест знаков 5. – 17. 4-13 29. 8-21 41. 13-28 53. 18-35 65. 24-41 77. 29-48 89. 34-55 6. 0-6 18. 4-14 30. 9-21 42. 14-28 54. 19-35 66. 24-42 78. 29-49 90. 35-55 7. 0-7 19. 4-15 31. 9-22 43. 14-29 55. 19-36 67. 25-42 79. 30-49 91. 35-56 8. 0-8 20. 5-15 32. 9-23 44. 15-29 56. 20-36 68. 25-43 80. 30-50 92. 36-56 9. 1-8 21. 5-16 33. 10-23 45. 15-30 57. 20-37 69. 25-44 81. 31-50 93. 36-57 10. 1-9 22. 5-17 34. 10-24 46. 15-31 58. 21-37 70. 26-44 82. 31-51 94. 37-57 11. 1-10 23. 6-17 35. 11-24 47. 16-31 59. 21-38 71. 26-45 83. 32-51 95. 37-58 12. 2-10 24. 6-18 36. 11-25 48. 16-32 60. 21-39 72. 27-45 84. 32-52 96. 37-59 13. 2-11 25. 7-18 37. 12-25 49. 17-32 61. 22-39 73. 27-46 85. 32-53 97. 38-59 14. 2-12 26. 7-19 38. 12-26 50. 17-33 62. 22-40 74. 28-46 86. 33-53 98. 38-60 15. 3-12 27. 7-20 39. 12-27 51. 18-33 63. 23-40 75. 28-47 87. 33-54 99. 39-60 16. 3-13 28. 8-20 40. 13-27 52. 18-34 64. 23-41 76. 28-48 88. 34-54 100. 39-61 Тест Вилкоксона ■ По силе примерно равен t-тесту для связанных совокупностей если применяется на нормальном распределении Тест Вилкоксона Тест Вилкоксона Тест Вилкоксона (SAS) data new; input BD1 BD2 @@; diff=BD2-BD1; diff=BD2-BD1; if diff EQ 0 then delete; else absdiff= absdiff=abs( abs(diff); diff); cards; 76 65 82 67 79 70 85 70 72 60 75 60 86 80 80 71 77 61 79 59 ; run; proc rank out=rang; var absdiff; absdiff; ranks absdiff; absdiff; run; data _null_; file print; set rang end=end; if diff GT 0 then do; TPOS+absdiff TPOS+absdiff;; N_TPOS+1; end; if diff lt 0 then do; TNEG+absdiff TNEG+absdiff;; N_TNEG+1; end; if end then do; minsumme=min(TPOS, minsumme=min(TPOS, TNEG); N=N_TPOS+N_TNEG; Z=(MINSUMME(N*(N+1)/4))/SQRT(N*(N+1)*(2*N+1)/24); P2=ROUND(PROBNORM(Z)*2,.0001); put ' Wilcoxon test for dependent sample'; put ' ----------------------------------'/; put 'Z-Approx .:'z @30 '2-tail probability = ' P2; 'Z-Approx.:'z put 'Number positive ranges: ' @40 N_TPOS 8.0/ 'Number negative ranges: ' @40 N_TNEG 8.0; put 'Sum of positive ranges: ' @40 TPOS 8.0/ 'Sum of negative ranges: ' @40 TNEG 8.0; put 'Number of cases: ' @40 N 8.0; end; run; Тест Вилкоксона (SAS) Тесты для независимых совокупностей Нормальное распределение (t-тест) ■ Иное распределение: ■ – различия средних (медиан) - тесты Манна-Уитни, Ван-дер-Вардена – различная форма распределения тесты Вальда-Вольфовица, Колмогорова-Смирнова t-тест для независимых совокупностей ■ Самый распространенный тест: t= M 2 − M1 m +m 2 1 2 2 – затем значение t сравниваем с табличными, df=n-1 t-тест для независимых совокупностей t-тест для независимых совокупностей t-тест для независимых совокупностей (SAS) t-тест для независимых совокупностей (SAS) Отличное от нормального распределение ■ Критерий Розенбаума – Отсортировать обе группы – подсчитать количество наблюдений вне перекрытия, сравнить с табличными 11 12 13 14 15 16 17 18 19 20 21 22 23 11 6 12 6 6 13 6 6 6 14 7 7 6 6 15 7 7 6 6 6 16 7 7 7 7 6 6 17 7 7 7 7 7 7 7 18 7 7 7 7 7 7 7 7 19 7 7 7 7 7 7 7 7 7 20 7 7 7 7 7 7 7 7 7 7 21 8 7 7 7 7 7 7 7 7 7 7 Отличное от нормального распределение Отличное от нормального распределение Отличное от нормального распределение (SAS) Отличное от нормального распределение (SAS) Отличное от нормального распределение (SAS) Анализируется более двух групп ■ Проблема при анализе нескольких групп - резкое повышение вероятности альфа ошибки (ошибки первого типа). Она повышается в соответствии с формулой: α = 1 − (1 − 0.05) ■ n где n - число сравнений. Так для 5 групп количество сравнений 24, поэтому ошибка равна 0,71 Анализируется более двух групп ■ Способы множественного сравнения: – Метод Бонферрони - уровень значимости понижается в соответствии с количеством сравнений. Для предыдущего примера уровень значимости не 0,05, а 0,05/24=0,002 – использование дисперсионного анализа с тестами post hoc: » » » Дункан Ньюман-Коулс Тьюки Дисперсионный анализ (ANOVA) ■ ■ Метод сравнения средних, хотя анализируются дисперсии. Основная идея - расчитать дисперсию без учета принадлежности к разным группам (все из одной популяции) и сравнить с суммой внутригрупповых дисперсий. Если группы из разных популяций (противоречит нулевой гипотезе) дисперсия без учета групповой принадлежности будет значительно больше, чем сумма внутригрупповых. Для оценки отношения дисперсий используется специальный критерий - F критерий Фишера Дисперсионный анализ (ANOVA) ■ ■ ■ ■ ■ ■ ■ ■ ■ Пример (количество групп к=2): 2 3 4 5 6 7 средние 3 6 дисперсия 2 2 общая дисперсия 17,5 модель объясняет 17,5-2-2=13,5 MSe (mean square error)=4/4=1 (4 - dfe=N-k) MSm (mean square model)=13,5/1=13,5 (1 - dfm=k-1) F=MSS/MSE Дисперсионный анализ (ANOVA) Дисперсионный анализ (ANOVA) Дисперсионный анализ (ANOVA) Дисперсионный анализ (ANOVA) ANOVA (SAS) ■ Могут использоваться две процедуры: ANOVA и GLM – ANOVA используется для т.н. сбалансированных планов (в группах одинаковое количество лиц) – GLM используется для любых планов ■ Обе процедуры могут рассчитывать откорректированные средние (MANOVA) ANOVA (SAS) ANOVA (SAS) ANOVA ■ Если необходим анализ зависимых переменных, то существует несколько возможностей: – заменить исходные данные на разности и выполнить затем ANOVA на разностях – воспользоваться модулем ANOVA/MANOVA в системе Statistica Анализ зависимых переменных Анализ зависимых переменных Анализ зависимых переменных (SAS) Анализ зависимых переменных (SAS) Отклонения от нормального распределения В принципе ANOVA достаточно устойчива к небольшим отклонениям от нормального распределения ■ Для зависимых переменных - ANOVA по Фридману ■ Для независимых переменных ANOVA по Крускалу-Уоллесу ■ Отклонения от нормального распределения Другие задачи, которые может решать ANOVA ■ ■ ■ ■ Зависимость количественной переменной от нескольких качественных (напрмер, как пол, отношение к курению и цвет волос влияют на САД) Совместное действие нескольких качественных переменных (выше ли САД у брюнеток) Влияние нескольких качественных и количественных переменных на количественную (MANCOVA) НО это уже многомерные методики