Загрузил alexander_gorin

Саканян Г.Г. Основы биостатистики 2010

реклама
Ереванский государственный медицинский
университет им. М. Гераци
кафедра общественного здоровья
Саканян Г.Г.
ОСНОВЫ БИОСТАТИСТИКИ
Учебное руководство для студентов медицинского университета
Под редакцией проф. Айрапетян А.К.
Ереван - 2010
1
Утверждено решением Цикловой методической комиссии
гигиенических и гуманитарных дисциплин ЕГМУ им. Мх.
Гераци (заседание от 14.10.09, протокол N 17).
Рецензенты:
к.ф-м.н., доц. кафедры статистики ЕГУ Гаспарян К.
к.м.н., проф. Арутюнян А.М.
Редактор русского текста: к.п.н., доц. Налбандян С.Р.
ОСНОВЫ БИОСТАТИСТИКИ. Учебное руководство для студентов медицинского университета/
Под ред. д.м.н, проф. Айрапетян А.К. – Ер. Издательство Ереванского государственного медицинского университета им. М. Гераци, 2010, --- стр. 156.
2
Учебное руководство предназначено для студентов высших медицинских заведений.
Основная цель научить будущих врачей грамотно использовать необходимые статистические методы, корректно
интерпретировать и представлять результаты статистических исследований. В учебном руководстве содержатся используемые в статистике основные определения, краткое
описание этапов проведения статистических исследований
и наиболее широко применяемые в медико-биологических
исследованиях методы статистического анализа. Многие
вопросы, освещенные в руководстве, представляют интерес
для магистров, резидентов и аспирантов, участвующих в
клинических и экспериментальных исследованиях.
3
ОГЛАВЛЕНИЕ
Введение в биостатистику .................................................5
Этапы проведения медицинских исследований ...........8
Первый этап исследования .....................................8
Второй этап исследования .....................................20
Третий этап исследования .....................................23
Четвертый этап исследования .................................24
Дизайн медицинских исследований ...............................25
Обсервационные исследования ............................... 27
Экспериментальные исследования .........................47
Описательная статистика .................................................61
Таблицы распределения частот ..............................61
Графическое изображение
распределения частот ............................................64
Показатели центральной тенденции .....................72
Показатели варьирования, или разброса ...............77
Относительные величины, их
графическое представление ...................................88
Статистические выводы ...................................................94
Доверительные границы...........................................101
Проверка гипотез ......................................................110
Сравнение двух средних .........................................122
Дисперсионный анализ ............................................126
Сравнение показателей ..........................................130
Непараметрические тесты ...............................................132
Проверка по критерию хи-квадрат .........................133
Корреляционный анализ .................................................138
Регрессионный анализ ......................................................144
Динамические ряды ..........................................................147
Стандартизация показателей ..........................................152
Выбор адекватного статистического теста....................?
4
ВВЕДЕНИЕ В БИОСТАТИСТИКУ
Слово «статистика» часто ассоциируется со словом
«математика», и это пугает студентов, связывающих это понятие со сложными формулами, требующими высокого
уровня абстрагирования. Однако, статистика — это, прежде
всего, способ мышления, и для ее применения нужно лишь
иметь немного здравого смысла и знать основы математики.
В нашей повседневной жизни мы, сами о том не догадываясь, постоянно занимаемся статистикой. Хотим ли мы,
например, оценить усилия, которые потребуются для усвоения какого-то курса, с учетом полученных до сих пор отметок, спланировать бюджет, рассчитать потребление бензина
автомашиной или вообще оценить, как повлияет то или
иное событие на наше личное или совместное будущее, —
нам постоянно приходится отбирать, классифицировать и
упорядочивать информацию, связывать ее с другими данными так, чтобы можно было сделать выводы, позволяющие принять верное решение.
Все эти виды деятельности мало отличаются от тех операций, которые лежат в основе научного исследования и
состоят в синтезе данных, полученных на различных группах объектов в том или ином эксперименте, в их сравнении
с целью выяснения черт различия между ними, в их сопоставлении с целью выявления показателей, изменяющихся в
одном направлении, и, наконец, в предсказании определенных фактов на основании тех выводов, к которым приводят
полученные результаты. Именно в этом заключается цель
статистики в науках.
Таким образом, статистика – это наука, изучающая методы сбора, обработки, анализа и интерпретации количественных данных, характеризующих массовые явления и процессы.
Особенностью статистики является то, что, изучая массовые явления, выявляются общие закономерности, делаются выводы и заключения, которые, будучи в целом верными
5
и объективными, тем не менее не применимы для определения единичного явления. Так, например, характеризуя метод лечения как успешный в 90% случаев, невозможно точно предсказать исход для конкретного больного.
Статистика широко используется в различных областях:
в бизнесе, маркетинге, экономике, сельском хозяйстве, психологии, социологии, антропологии, биологии и медицине.
Статистика, изучающая вопросы проведения исследований в области медицины, экологии, биологии, общественного здоровья и здравоохранения, называется биостатистикой.
Врачам в их повседневной работе знание статистики необходимо для принятия правильных решений в отношении
диагностики, лечения и прогноза заболевания. Любой, кто
работает с больными, знает, как часто перед принятием
клинического решения приходится искать новую информацию. Источниками новой медицинской информации в настоящее время являются в основном медицинские журналы.
При этом во время чтения статьи, указывающей на преимущества нового лекарственного препарата, новой схемы лечения, диагностического теста и т.д., к сожалению, мало кто
из врачей задается вопросом, насколько доказательными
являются приведенные сведения. Знание биостатистики помогает врачам до внедрения предлагаемых результатов исследований в клиническую практику критически оценить их
на предмет достоверности. Именно такой научный подход к
оценке медицинских научных публикаций предлагает доказательная медицина (Evidence-Based Medicine).
Доказательная медицина требует от любого врача, кто
серьезно относится к своему делу, не просто чтения статей,
а чтения нужных статей и осмысленного использования результатов наиболее доказательных из существующих клинических исследований для выбора методов лечения конкретного больного.
Для того, чтобы уметь отличать нужные статьи от ненужных, врачу нужно иметь представление об основных
6
этапах проведения медицинских исследований, об их видах,
возможностях и недостатках каждого из них.
Для врачей крайне важно понимание общей логики статистического исследования, сути процесса анализа, предела
его возможностей, а также вероятности возникновения
ошибок. Современные пакеты программ статистической обработки свели технику проведения анализов к нажатию клавиш и создали у исследователя иллюзию легкости и доступности статистического анализа. Однако, значительно увеличилось число неправомерного использования методов, неадекватной интерпретации результатов. Необходимо помнить, что нет “статистического” метода, а есть научный метод. Сам по себе он не может быть плохим или хорошим; он
просто может быть применен неверно или не к месту. Статистика является лишь инструментом в руках исследователя, но инструментом очень мощным и требующим грамотного и аккуратного обращения с ним. Существо приложения статистических методов заключается в использовании
здравого смысла при анализе тех или иных данных. Всегда
надо помнить, что статистическая связь не является еще
причинно-следственной связью. Для доказательства причинно-следственной связи необходим логический анализ с
использованием подходов, известных как причинные критерии Бредфорд-Хилла (Bradford-Hill Causal Criteria) к которым относятся: сила связи, постоянство, временная последовательность, биологический градиент, правдоподобие,
экспериментальные свидетельства, аналогии.
7
ЭТАПЫ ПРОВЕДЕНИЯ МЕДИЦИНСКИХ ИССЛЕДОВАНИЙ
В организации и проведении биомедицинских исследований выделяют четыре этапа:
разработка программы и плана исследоПервый этап вания.
сбор необходимых данных, предусмотВторой этап ренных программой исследования и формирование баз данных.
обработка собранного материала и статиТретий этап стическое описание полученных результатов.
статистические выводы и предложения на
Четвертый
основе анализа полученных результатов
этап исследования.
ПЕРВЫЙ ЭТАП ИССЛЕДОВАНИЯ
Еще до начала исследования исследователь должен четко
представлять, что и как он будет делать на каждом этапе.
На первом этапе тщательно разрабатываются программа
и рабочий план исследования. Программа исследования
включает в себя четкое определение изучаемой проблемы,
цели и задач исследования, формулировку гипотез, определение дизайна (структуры) исследования, объекта и единицы наблюдения, методов формирования выборочной совокупности, разработку статистического инструментария, методов сбора, обработки и анализа данных.
Цель исследования определяется конечным результатом,
на достижение которого направлено данное исследование.
Задачи исследования – это ряд конкретных промежуточных шагов (целей), последовательное решение которых позволяет достичь поставленной цели. Например, целью исследования может являться разработка мероприятий по ук8
реплению и сохранению здоровья студентов медицинского
университета. Задачами исследования в этом случае могут
служить:
1. Изучение распространенности курения среди студентов в начале и в конце обучения в медицинском
университете.
2. Выявление факторов, влияющих на распространенность курения.
3. Предложение мероприятий по профилактике и борьбе с курением среди студентов медицинского университета.
Четкая формулировка цели и задач исследования облегчает задачу разработки статистических гипотез и выбора
дизайна исследования. Разработанные гипотезы определяют
направление исследования. Исследование движется от гипотезы к проведению исследования для ее проверки и к получению выводов. В указанном исследовании гипотезой
может служить, например, предположение об ухудшении
показателей здоровья студентов-медиков к концу обучения
под влиянием курения.
Подробная информация о разновидностях дизайнов исследования, о преимуществах и недостатках каждого из них
будет представлена в следующем разделе.
На этапе разработки программы исследования определяются, как уже было сказано, также единица и объект наблюдения.
Единица наблюдения - это каждый первичный элемент
статистической совокупности. Объект наблюдения - это совокупность единиц наблюдения, избранная для статистического наблюдения. Эту совокупность в статистике принято
называть статистической совокупностью. Это может быть
население в целом, отдельные группы населения и т.п.
В нашем исследовании единицей наблюдения является
студент, обучающийся в данном медицинском вузе на протяжении всех лет обучения, а объектом наблюдения - студенты медицинского вуза.
9
Единица наблюдения наделена признаками сходства и
различия, которые подлежат учету и дальнейшему наблюдению, поэтому эти признаки называются учетными. Типом
признака, или переменной (variable), и дизайном исследования определяется, какие манипуляции можно с этими признаками проводить и какие статистические инструменты
использовать.
По виду учетные признаки, или переменные, могут быть
качественными или количественными.
Количественные признаки – признаки, или переменные,
значения которых имеют числовое выражение. Они могут
быть дискретными – принимающими в заданном интервале
ограниченное, определеннное число значений и обычно выражающимися целыми числами (например, число детей, беременностей, приступов и т.д.); или непрерывными (continuous) - принимающими в заданном интервале неограниченное число значений (масса, длина тела и т.д.).
Качественные, или описательные признаки, характеризуют качество отдельных единиц совокупности; для них количественных значений нет, либо они скрыты. Описательный признак – это некоторая категория (значение) характеристики, к которой индивид принадлежит или не принадлежит, или свойство, которым индивид обладает или не обладает. Некоторые характеристики можно выразить только
одним способом, другие допускают применение обоих способов представления. Например, масса может быть выражена в численном значении (в кг) или качественном (наличие
избыточной массы тела или ее отсутствие).
При выборе формы представления важно учитывать особенности проводимого исследования, требования надежности и состоятельности, а также свойства различных измерительных шкал. Однако, в общем подход таков – количественные признаки предпочтительнее представлять именно в
таком виде, а не преобразовывать в качественные.
10
В процессе проведения исследования важным является
получение данных, для чего существуют три основных типа
инструментов:
1. Приборы – измерения производятся с помощью чисто
механических приспособлений (весы, термометр, манометр
и т.д.).
2. Люди – измерения производят люди без аппаратуры
или с минимальным ее использованием (сбор анамнеза, анкетирование, перкуссия, аускультация).
3. Комбинация людей и приборов (расшифровка рентгенограмм, патоморфологические исследования).
В любом случае, желательно, чтобы средства определения данных обладали двумя свойствами – надежностью
(reliability) и состоятельностью (валидностью, validity).
Надежность – свойство, присущее любому работающему инструменту. Надежен тот инструмент, который дает
стабильные результаты при повторном исследовании одного и того же объекта в сходных условиях.
Состоятельность – это способность метода или инструмента измерять ту характеристику, для измерения которой
он предназначен. Например, лихорадка не может быть состоятельным (достоверным) показателем малярии в районе
с низким уровнем распространения этого заболевания. Или
же: бездетность не может быть состоятельным признаком
бесплодия.
Двумя важными компонентами состоятельности являются чувствительность и специфичность. В общем смысле
чувствительность критерия, метода или измерительного инструмента представляет собой отношение изменения наблюдаемого показателя к соответствующему изменению
значения измеряемой величины. Чем выше это отношение,
тем чувствительнее метод. Если, например, измеряется концентрация и ее малое изменение приводит к большому изменению результатов, то такой тест чувствительный. В этом
смысле чувствительность не относится к минимальному количеству, которое можно выявить (это порог чувствитель11
ности). Специфичность определяется как степень, с которой
критерий, метод или измерительный прибор способны реагировать на наличие данной величины и не реагировать на
наличие всех других переменных.
При проведении исследований “измеряемая” исследователем величина состоит из двух составляющих – величины
самого показателя и ошибки измерения. Ошибка измерения
может быть двух типов: систематической (смещение, bias) и
случайной (random error).
измеряемая величина = истинная величина + ошибка измерения
систематическая ошибка + случайная ошибка
поражает
состоятельность
поражает
надежность
Случайных ошибок избежать невозможно, но, к счастью,
они не фатальны, их можно учесть и “ввести поправки” во
избежание ошибочных заключений. Систематические
ошибки предупреждаемы, их совершать нельзя, т.к. они
приводят к ошибочным выводам и заключениям. К этой теме мы еще не раз вернемся.
Для измерения данных используют четыре шкалы –
шкалу номиналов, шкалу рангов, шкалу интервалов и шкалу
отношений.
Шкала номиналов, или категорий (номинальная), характеризуется тем, что переменные в ней имеют только названия, метки, ярлыки. Измерение в такой шкале не содержит
никаких указаний на величину индивидуального показателя. Переменные номинальных шкал могут быть дихотомическими, или бинарными, и полихотомическими.
Дихотомические переменные могут принимать только
два возможных значения – наличие или отсутствие изучае12
мых признаков или состояний, например, принадлежность к
мужскому или женскому полу, наличие или отсутствие болезни и т.д.
Полихотомические переменные имеют более двух возможных вариантов, например, диагноз, место жительства,
группа крови и т.д. Возможности обработки переменных,
относящихся к номинальной шкале очень ограничены.
Можно провести только частотный анализ таких переменных. К примеру, расчет среднего значения для переменных
“пол” или “семейное положение”, совершенно бессмысленен.
Шкала рангов (порядковая) имеет все свойства номинальной шкалы и, кроме того, позволяет ранжировать переменные, т.е. располагать их в естественном порядке увеличения величины переменной. Примерами переменных, относящихся к порядковой шкале, относятся, например, стадии болезни, тяжесть состояния по условной шкале, шкала
Апгар и т.д. К примерам переменных, измеряемых в порядковой шкале, относятся также переменные, полученные в
результате объединения величин в классы, например, в результате объединения в классы величин массы тела новорожденных, величин месячного дохода и т.д. Характерной
особенностью шкалы является то, что несмотря на явную
разницу в классах, тем не менее их нельзя измерить и границы между ними являются неопределенными и неравными.
Кроме частотного анализа, переменные с порядковой
шкалой допускают также вычисление такой статистической
характеристики, как медиана.
Количественные признаки измеряются в интервальных
шкалах и шкалах отношений. Интервальная шкала схожа с
порядковой в том, что варианты интервальной шкалы также
могут быть ранжированы, расположены в порядке возрастания величины переменной. Особенностью интервальной
шкалы является то, что она не только допускает возможность ранжирования отдельных вариантов, но и характери13
зуется равными интервалами между отдельными ступеньками шкалы. Интервалами могут иметь числовые выражения с определенной единицей измерения.
В отличие от шкалы отношений в интервальной шкале
как единица измерения, так и нулевая точка (начало координат или точки отсчета), произвольны и устанавливаются
только по соглашению (являются условными). По этой
шкале перемножение и сложение дают разные результаты.
Например, по шкале Цельсия температура в 30ºС не в 2 раза
выше температуры в 15ºС, а на 15ºС . Или же: суммарные
знания трех двоечников не больше знаний одного отличника. Приведем другой пример. Если, например, у Саши коэффициент интеллекта (IQ) равен 80, у Димы - 120 и у Бориса - 160, то можно сказать, что Дима в сравнении с Сашей, настолько же интеллектуальнее, насколько Борис в
сравнении с Димой (а именно: на 40 единиц IQ). Однако,
основываясь только на том, что значение IQ у Саши в два
раза меньше, чем у Бориса, исходя из определения IQ, нельзя сделать вывод, что Борис вдвое умнее Саши.
Арифметические операции, допустимые в данной шкале,
включают все операции, допустимые и в ранговой шкале;
кроме того, результаты измерений можно складывать, вычитать, делить и умножать на любую константу, получая
интерпретируемые результаты. Сравнение интервалов для
этой шкалы имеет определенный смысл и не зависит от
масштаба или системы обозначения оценок. Полноценным
статистическим показателем для характеристики таких переменных является среднее значение.
Шкала, которая имеет абсолютную нулевую точку, называется шкалой отношений. В ней измеряется большинство
интервальных переменных, например, температура по шкале Кельвина, масса тела, возраст и т.д. Например, взрослый
человек, имеющий массу тела, равную 60 кг, в 2 раза тяжелее ребенка с массой тела, равной 30 кг. Здесь допустимы
все арифметические операции, отношение любых двух измерений имеет смысл и не зависит от масштаба.
14
Нужно отметить, что на практике различие между переменными, относящимися к интервальной шкале и шкале отношений, обычно несущественно.
По роли в статистической совокупности учетные признаки можно подразделить на факторные, или независимые
(independent) и результативные, или зависимые (dependent).
Результативный признак - зависимый, изменяющий свое
значение под влиянием связанных с ним и действующих на
него факторных признаков.
Факторные признаки, соответственно, - это признаки,
влияющие на изучаемое явление. Например, наличие вредных привычек и стаж курения - факторные признаки, а состояние здоровья, наличие заболевания - результативные
признаки. Подобное разделение на факторные и результативные признаки зависит от цели исследования и постановки задач, а не является атрибутом признака. Например, в
исследовании, направленном на изучение эффективности
различных методов пропаганды здорового образа жизни на
распространенность вредных привычек, последние станут
зависимыми признаками.
На первом этапе исследования определяется также объем
статистической совокупности, метод отбора единиц наблюдения и вид наблюдения.
В зависимости от степени охвата статистической совокупности принято различать сплошные и несплошные статистические исследования. Эта методическая особенность
сбора данных определяет весь дальнейший ход и методику
статистического анализа.
Сплошным называется такое медико-социальное исследование, при котором изучаются все единицы наблюдения,
составляющие генеральную совокупность. На практике
сплошное исследование проводится крайне редко, поскольку осуществить такое наблюдение организационно очень
трудно или физически невозможно из-за больших размеров
генеральной совокупности или из-за отсутствия определен15
ных границ этой совокупности. К тому же, сплошные исследования во много раз дороже несплошных.
При несплошном исследовании изучается лишь часть совокупности для характеристики целого. Несплошное наблюдение бывает нескольких видов:
• монографическое описание;
• метод основного массива;
• выборочное исследование.
Метод монографического описания применяется для
подробного изучения одного объекта (одного человека, одного учреждения, одного населенного пункта, новой технологии), имеющего какие-либо яркие особенности. Выводы,
которые получаются путем таких исследований, относятся
либо только к конкретному объекту исследования, либо могут быть распространены на весьма ограниченную группу
аналогичных объектов. Указанный метод наблюдения нашел довольно широкое применение при изучении опыта
лучших (худших) лечебно-профилактических учреждений.
Метод основного массива - метод статистического исследования, при котором изучению подвергают только те
части совокупности, в которых сосредоточено большинство
единиц наблюдения. Например, при изучении здоровья детей, родители которых работают на предприятиях химической промышленности, в целях анализа можно использовать только крупные предприятия, исключив мелкие объекты. Обычно эти методы используются на ранних этапах исследования, когда только генерируются гипотезы и проводится их начальная проверка. В результате исследователь
устанавливает основные закономерности, выявляет возможные механизмы действия и т.д.
Собственно выборочное исследование охватывает выборочную совокупность, или просто выборку, из генеральной
совокупности. При этом конечной целью изучения выборочной совокупности всегда является получение информации о генеральной совокупности. Для этого выборочное исследование должно удовлетворять определенным условиям.
16
Одно из главных условий - представительность, или репрезентативность выборки. Выборку называют репрезентативной, если каждое свойство (или комбинация свойств)
наблюдается в выборке с той же частотой, что и в популяции, из которой она извлечена.
Различают качественную и количественную репрезентативность.
Количественная репрезентативность определяется достаточным числом элементов выборочной совокупности, гарантирующим получение статистически достоверных данных и основана на законе больших чисел.
Закон больших чисел в наиболее простой форме гласит,
что количественные закономерности массовых явлений отчетливо проявляются лишь в достаточно большом их числе.
Теорема Чебышева гласит: “С вероятностью, сколь угодно
близкой к единице, можно утверждать, что при достаточно
большом числе независимых наблюдений, средняя величина изучаемого признака, полученная на основе выборки,
будет сколь угодно мало отличаться от средней величины
изучаемого признака во всей генеральной совокупности”.
T.e. сущность закона больших чисел заключается в том, что
в числах, получающихся в результате массового наблюдения, выступают определенные закономерности, которые
могут быть обнаружены только при достаточном числе наблюдений. Достаточное число элементов выборочной совокупности рассчитывается по специальным формулам.
Качественная репрезентативность основана на законе
вероятности и определяется структурным соответствием
выборочной и генеральной совокупностей.
Качественная репрезентативность выборки лучше всего
достигается посредством случайного отбора ее единиц из
популяции. Случайная выборка (random sample) извлекает
из популяции как типичные, так и нетипичные случаи. В
совокупности они дают самое правильное представление об
изучаемой генеральной совокупности. Важно также то, что
при случайном отборе людей они отличаются от других в
17
генеральной совокупности по всем, в том числе и неизвестным нам признакам, случайным образом. Процесс случайного отбора осуществляется посредством рандомизации.
Проведение рандомизации не затруднительно, и для этого в настоящее время достаточно средств: могут использоваться таблицы случайных чисел, различные компьютерные
программы. К обсуждению средств проведения рандомизации мы еще вернемся в разделе «Дизайны медицинских исследовний».
При расслоенной, или стратифицированной случайной
выборке (stratified random sample), изучаемая неоднородная
генеральная совокупность сначала делится по какому-либо
существенному признаку на относительно однородные
группы (strata), после чего из каждой группы производится
случайный отбор единиц. Предварительная стратификация
обеспечивает большую репрезентативность выборки. Особенно рекомендуется проводить стратификацию при небольшом объеме выборки, т.к. в этом случае шансы получить репрезентативную группу простой рандомизацией недостаточны. Например, вместо отбора выборки в 100 человек из всего населения, состоящего из 5000 белых и 5000
негров, можно отобрать две случайные выборки в 50 человек из каждой этнической группы. Это обеспечит большую
этническую представительность общей выборки в 100 человек.
В некоторых случаях, когда проведение случайного отбора или стратифицированного случайного отбора требует
больших затрат денег и времени, проводится кластерный
отбор (cluster sampling). Например, если необходимо провести опрос среди 1000 школьников в городе N, исследователь может сначала посредством случайного отбора отобрать 10 школ (кластеров) в городе, а затем опросить в каждой из них по 100 школьников. Этот метод является значительно более экономичным и практичным, по сравнению со
случайным отбором 1000 школьников из всей совокупности
школьников города N.
18
Эквивалентом случайного отбора без использования рандомизации является систематический, или механический
отбор (systematic sampling). Систематическая выборка
формируется с помощью механического подхода к отбору
единиц наблюдения: из всей совокупности для изучения берется механически отобранная каждая третья, пятая, десятая
единица наблюдения. Например, можно отобрать каждого
пятого пациента, поступающего в больницу, или каждого
третьего ребенка, родившегося в данном районе.
О выборке, которая не является репрезентативной, говорят, что она имеет смещение. Когда заключения относительно популяции делаются на основе наблюдений в смещенной выборке, возможны отклонения результатов от истинных значений, называемые систематической ошибкой. О
систематической ошибке мы уже говорили выше. Она может привести к недооценке реального эффекта, его переоценке, выявлению несуществующих взаимосвязей, демонстрации положительных взаимосвязей между факторами
вместо отрицательных и наоборот. Источниками систематических ошибок являются несовершенство используемых
методов, несоответствие выбранного типа исследования поставленным задачам, неадекватный отбор пациентов для
участия в исследовании и влияние третьих переменных (не
изучаемых непосредственно).
Классическим примером нерепрезентативной выборки
служит опрос общественного мнения, проведенный до президентских выборов в США в 1936 году журналом “Literature Digest”. По результатам опроса выборки из более чем
10 млн. человек, была предсказана полная победа Альфреда
Лендона над Франклином Рузвельтом, однако результаты
состоявшихся выборов были совершенно противоположными. Проблема состояла в том, что выборка была сформирована из числа подписчиков, фамилии которых были
включены в телефонные справочники. Между тем, владельцы телефонов в период Великой депрессии в США представляли лишь небольшую часть всего электората.
19
Первый этап статистического исследования предусматривает определение методов сбора статистичекой информации, а также разработку и тиражирование статистического
инструментария (карт, анкет, компьютерных программ
формирования и обработки информационных баз данных и
др.), куда в период сбора данных будет заноситься вся информация.
Наконец, программа исследования включает программу
анализа, которая предусматривает перечень статистических
методик, необходимых для выявления закономерностей
изучаемого явления.
Разработка рабочего плана исследования - следующий
важнейший этап подготовки исследования. План исследования предусматривает решение таких организационных
вопросов, как подбор, обучение и организация работы непосредственных исполнителей, определение необходимого
объема и и видов ресурсов, необходимых для проведения
исследования (кадры, финансы, материально-технические,
информационные ресурсы и др.), определение места и сроков проведения исследования, ответственных за отдельные
этапы исследования.
ВТОРОЙ ЭТАП ИССЛЕДОВАНИЯ
Второй этап статистического исследования - это этап
сбора необходимых данных, предусмотренных программой
исследования, и формирование баз данных. Определение
методов сбора необходимых данных, как уже было сказано,
определяется на первом этапе исследования.
Различают два вида данных – первичные и вторичные.
Первичные данные – это данные, полученные непосредственно исследователем, вторичные – получены кем-то другим, но используемые данным исследователем. Хотя это
разделение несколько условно – первичные данные одного
исследователя становятся вторичными для другого, качественная разница весьма существенна.
20
При проведении медико-социальных исследований статистический инструментарий, как правило, включает два
раздела:
1. Характеристику состояния здоровья изучаемой группы.
2. Характеристику условий и образа жизни изучаемой
группы.
Основными источниками информации о состоянии здоровья изучаемой группы являются:
• статистическая отчетность (на бумажных и электронных носителях организаций и органов управления здравоохранением), полученная как на основе официально утвержденных, так и временных учетных форм;
• первичная медицинская документация;
• медицинские (скрининговые) осмотры населения;
• электронные персонифицированные базы данных.
Для получения информации об условиях и образе жизни
применяются социологические методики. Основные сведения об условиях и образе жизни могут быть получены посредством анкетирования (заочный опрос), интервьюирования (очный опрос), комбинации этих методов (анкетаинтервью), прямого наблюдения, экспедиционно-монографического метода (с параллельным изучением местных
особенностей типичного объекта).
Наиболее часто в медико-социальных исследованиях используются методы анкетирования, интервью и их комбинация.
Анкеты и вопросники составляются еще на первом этапе
исследования. Их разработка является весьма ответственным делом. Анкета должна быть достаточно полной, но не
перегруженной. Оптимально, если она содержит 40-50 вопросов. Слишком длинная анкета часто вызывает негативную реакцию респондентов, отказ от участия в анкетировании, или, что еще хуже, поспешное, неаккуратное заполнение анкеты. Если тема исследования не позволяет ограничиться таким объемом, то анкета должна быть разбита на
21
логически связанные подразделы. Вопросы должны быть
ясно и четко оформлены, быть простыми и понятными, недвусмысленными, но в то же время не должны подсказывать респонденту желаемый или ожидаемый ответ. Предпочтительны вопросы на которые отвечают «Да / Нет».
По своей структуре вопросы бывают закрытыми, открытыми и полуоткрытыми. Закрытые вопросы предполагают
ограниченный выбор ответов из предлагаемого набора, полуоткрытые - дают возможность добавить собственный вариант ответа, а открытые дают полную свободу ответа. Анкета, содержащая преимущественно закрытые вопросы, называется структурированной (structured); если она содержит значительное количество открытых или полуоткрытых
вопросов, то называется полуструктурированной (semi
structured). Открытые вопросы дают большую свободу респонденту, однако большое разнообразие ответов затрудняет
их дальнейшую группировку и обработку. Закрытые вопросы ставят респондента зачастую в затруднительное положение, он не может найти среди предложенных ответов подходящий. С другой стороны, наличие закрытых вопросов
значительно упрощает их формализацию и дальнейшую обработку. Во всех случаях респонденту надо оставлять свободу выбора и уклонения от ответа, предоставляя возможность ответить “не знаю”, “затрудняюсь ответить”.
Крайне желательна предварительная проверка работоспособности анкеты в небольшом пилотном исследовании.
Такая “обкатка” позволяет выявить лишние или пропущенные вопросы, неудачные, не воспринимаемые респондентами вопросы и т.д. Если, например, на какой-либо вопрос
более 30% респондентов дают ответ “затрудняюсь ответить”, то он неудачно сформулирован или не воспринимается аудиторией и должен быть заменен или исключен. В любом случае ответы на такие вопросы считаются недостоверными и не подлежат дальнейшей обработке.
Анкета обязательно должна содержать вводную часть, в
которой объясняется важность исследования, ценность от22
ветов, заверяется конфиденциальность сообщаемой информации, отсутствие последствий для респондента и выражается благодарность за сотрудничество.
Собранные данные в дальнейшем группируются, структурируются и переносятся на электронные носители. Такой
массив данных, хранимый на электронных носителях, называется базой данных. В настоящее время ввод данных в базу
данных осуществляется не только с бумажных носителей
(анкет, карт и т.д.), возможен и непосредственный ввод
данных через так называемые электронные карты.
ТРЕТИЙ ЭТАП ИССЛЕДОВАНИЯ
Третий этап - этап обработки собранного материала и
статистическое описание (descriptive statistics) полученных
результатов. Обработка данных - процесс получения достоверной информации из баз данных и использование ее для
дальнейшего анализа. Статистическое описание включает в
себя группировку, резюмирование данных выборочной совокупности с получением ее обобщенных характеристик, и
их представление в виде таблиц или графиков.
Примерами статистического описания могут служить,
например, определение среднего артериального давления у
группы пациентов, страдающих артериальной гипертензией; вычисление показателя послеоперационных осложнений
у группы пациентов, оперированных по поводу данного заболевания и т.д.
В настоящее время в исследованиях, связанных с изучением здоровья населения, широко используются различные
математико-статистические методы обработки данных с
применением компьютеров.
Компьютерная обработка данных предполагает некоторое математическое преобразование данных с помощью определенных программных средств. Для этого необходимо
иметь представление как о математических методах обра23
ботки данных, так и о соответствующих программных средствах.
Имеющиеся в настоящее время многочисленные пакеты
компьютерных программ содержат не только практически
все необходимые методы статистической обработки, но
также и методы статистического анализа данных. Компьютерная обработка данных не только ускоряет, но и многократно повышает качество статистического анализа.
Методы статистического описания полученных результатов будут подробно освещены в разделе «Описательная статистика».
ЧЕТВЕРТЫЙ ЭТАП ИССЛЕДОВАНИЯ
Четвертый этап - этап статистических выводов (statistical
inference) и предложений на основе анализа полученных результатов исследования.
Необходимость проведения статистического анализа
обусловлена тем, что, как уже было сказано, на практике
чаще всего проводятся не сплошные, а выборочные исследования. При этом, конечной целью изучения выборочной
совокупности всегда является получение информации и выявление закономерностей, которые были бы справедливы
для всей популяции в целом. Результаты статистического
анализа позволяют на основе результатов, полученных из
выборочного исследования, сделать с определенной вероятностью выводы обо всей популяции в целом.
Статистические характеристики, полученные в результате выборочного исследования, называются статистическими данными, на их основе делаются выводы о статистических характеристиках всей популяции, которые называются параметрами.
Существуют различные статистические методы анализа.
Выбор метода анализа в каждом конкретном исследовании
зависит от цели и задач исследования, от числа изучаемых
24
выборочных совокупностей, от типа переменных, изучаемых в данном исследовании.
При анализе прежде всего проводятся различного характера сопоставления. Сравнивается эффективность различных медицинских препаратов, диагностических тестов; полученные в результате исследования данные сопоставляются с данными предыдущих лет, с данными других авторов,
других регионов, с имеющимися нормативами.
Обширная группа методов статистического анализа
предназначена для исследования парных и множественных
связей между переменными (корреляционный анализ, регрессионный анализ и др.)
Как уже было сказано, в настоящее время для проведения
статистического анализа используются различные компьютерные статистические пакеты. Некоторые из наиболее широко используемых методов статистического анализа будут
освещены в соответствующих разделах данного учебного
пособия.
ДИЗАЙН МЕДИЦИНСКИХ ИССЛЕДОВАНИЙ
Дизайн исследования - это общая схема проведения исследования. Выбор вида дизайна зависит от задач конкретного исследования. С каждым типом исследования связаны
определенные проблемы, которые могут исказить результаты и привести к ложным выводам. Поэтому правильный
выбор дизайна определяет успех всего исследования.
Основные вопросы, определяющие вид дизайна исследования:
1. С какой целью проводится исследование?
2. Имеет ли проблема научное или клиническое значение?
3. Каков наиболее подходящий план исследования для
достижения поставленной цели?
Существует несколько классификаций дизайна исследований. В данном пособии приводится одна из них, согласно
25
которой исследования подразделяются на обсервационные
(observational) и экспериментальные (experimental). Основная разница между ними заключается в том, что в противоположность обсервационным, экспериментальные исследования всегда включают какое-либо преднамеренное вмешательство со стороны исследователя, например, использование нового лекарственного препарата, новой схемы лечения, нового диагностического метода и т.д. Чаще всего основной целью экспериментальных исследований является
доказательство большей эффективности новых препаратов,
новых схем лечения или большей информативности новых
диагностических методов. В отличие от экспериментальных
исследований, в обсервационных исследованиях исследователи лишь наблюдают и учитывают для последущего анализа воздействие на объект исследования различных факторов
риска, которые действуют независимо от воли исследователей. Главное преимущество обсервационного исследования
– относительная простота проведения. Объектами исследования в экспериментальных и обсервационных исследованиях могут служить животные или люди.
Таблица 1. Классификация дизайна исследований
I. Обсервационные исследования:
A. Описание случая.
Б. Описание серии случаев.
В. Исследования по типу случай-контроль.
Г. Поперечные исследования.
Д. Когортные исследования.
II. Экспериментальные исследования:
А. Экспериментальные исследования с наличием контрольных групп1. Параллельные клинические испытания
(с одновременным наблюдением экспериментальной и контрольной групп)
а. Рандомизированные исследования.
26
б. Нерандомизированные исследования.
2. Исследования с последующим наблюдением контрольной
группыа. Исследования по типу до-после.
б. Перекрестные исследования.
3. Исследования с использованием внешних контрольных
групп (с историческим контролем)
Б. Экспериментальные исследования без наличия контрольных групп.
ОБСЕРВАЦИОННЫЕ ИССЛЕДОВАНИЯ
Как уже было сказано, обсервационное исследование
(observational study) в противоположность экспериментальному исследованию — это исследование без преднамеренного вмешательства. Различают пять типов обсервационных
исследований: описание случая, описание серии случаев,
качественные исследования, поперечные исследования, исследования по типу случай-контроль и когортные исследования. Из них описание случаев и серий случаев являются
описательными, а остальные три – аналитическими.
Описание случая (case report, case study) – наиболее старый способ медицинского исследования, представляет собой подробное изложение данных, полученных путем наблюдения одного больного. Такие исследования обеспечивают описание необычных проявлений болезни, помогают
изучать патогенез и выдвигать гипотезы об этиологии и
способах лечения.
Описание серии случаев (case series) — обсервационное
исследование, представляющее собой количественный анализ группы больных численностью 10 человек и более, т.е.
результатом исследований серии случаев является описание
определенной характеристики группы пациентов (или случаев) в опубликованном труде. Обычно данные исследования включают пациентов, наблюдаемых в течение сравнительно короткого промежутка времени.
27
Серия случаев – самый распространенный способ описания клинической картины заболевания. Такие исследования
могут давать важные результаты, но это только предварительные, а не окончательные наблюдения. Основным недостатком этих исследований является отсутствие групп сравнения, а также то, что случаи изучаются в разные моменты
времени и на разных стадиях течения заболевания.
Некоторые исследователи не включают описание случая
и описание серии случаев в классификацию дизайнов исследований, так как они, как было уже сказано, имеют лишь
описательный характер, не являются запланированными и
проводятся без предварительного построения научной гипотезы. Построение научных гипотез часто является результатом этих исследований и поэтому они часто предшествуют другим исследованиям (когортным, поперечным, исследованиям случай-контроль), в которых построенные гипотезы и проверяются.
Качественные исследования позволяют скорее понять
или объяснить процесс заболевания, чем оценить его количественно. Они очень полезны, когда интересующие переменные непонятны или трудноизмеримы. Основными методами сбора информации при этих исследованиях могут
служить - прямое наблюдение, интервью, анализ текста или
документа.
Исследования по типу случай-контроль. Представьте
себе, что, работая клиницистом, вы наблюдали группу
больных с определенным видом злокачественной опухоли,
причем почти все больные указывали на подверженность
воздействию определенного химического вещества. Вы
предположили, что развитие указанного вида опухоли связано с воздействием данного химического вещества. Как вы
можете доказать или опровергнуть выдвинутое предположение?
Рассмотрим реальный пример.
В 40-х годах XX века австралийский офтальмолог
Норман Грег наблюдал группу младенцев и детей младшего
28
возраста с необычной формой катаракты. Грег выяснил, что
в период эпидемии краснухи в Германии эти дети находились в утробе матери. Он предположил наличие связи между подверженностью плода воздействию инфекции в пренатальный период и развитием необычной формы катаракты.
В те времена ничего не было известно о тератогенном воздействии вируса краснухи. Следовательно, он предложил
свою гипотезу только на основе данных собственных наблюдений.
Предположим, что Грег установил, что 90% наблюдаемых им новорожденных в период эпидемии краснухи находились в утробе матери. Могло ли это послужить веским
доказательством того, что развитие катаракты связано с
краснухой? Разумеется, ответ должен быть отрицательным,
так как хотя подобное наблюдение и могло представлять
определенный интерес, однако, его было бы очень трудно
правильно интерпретировать без данных контрольной группы детей без указанного заболевания. Возможно, например,
что 90% всех матерей новорожденных без катаракты также
были беременны в период эпидемии краснухи. В таком случае история подверженности воздействию изучаемого фактора не отличалась бы у матерей здоровых новорожденных
и новорожденных с катарактой. Таким образом, вопрос был
в том, чтобы определить была ли распространенность воздействия вируса краснухи больше среди новорожденных с
катарактой по сравнению с группой детей без катаракты.
Для определения значимости такого наблюдения в группе случаев необходимо было сравнение ее с контрольной
группой. Без подобного сравнения наблюдения Грега могли
быть интригующими, но не научно обоснованными. Сравнение является существенным компонентом эпидемиологических исследований и хорошо иллюстрируется на примере
исследования “случай-контроль”.
29
Дизайн исследования “случай-контроль”
Исследование “случай—контроль” (case control study) —
ретроспективное исследование, в котором, по архивным
данным, воспоминаниям или суждениям пациентов, производится сравнение двух групп, в одну из которых отобраны
пациенты с определенной патологией («случай»), а в другую — лица без нее («контроль»). Причем обе группы бывают отобраны из одной и той же популяции.
Цель исследования “случай-контроль”- выявление связи
между исходом (развитием заболевания) и воздействием
определенных риск-факторов, т.е. изучение этиологии заболевания.
Дизайн исследования показан на рисунке 1.
Рисунок 1. Дизайн исследования по типу “случайконтроль”
Лица, подвергавшиеся воздействию данного
фактора актора
Лица, не подвергавшиеся воздействию данного
фактора
Лица, подвергавшиеся воздействию данного фактора
Лица, не подвергавшиеся воздействию данного
фактора
Лица, страдающие данным
заболеванием
Лица, не страдающие данным
заболеванием
Группа случаев
Контрольная группа
В таблице №2 представлена гипотетическая схема проведения исследования “случай – контроль”. Начинают с отбора группы пациентов с данным заболеванием и без заболевания. Затем посредством интервьюирования и изучения
историй заболевания или результатов биологических анализов крови, мочи или ткани определяется подверженность
изучаемых лиц воздействию данного фактора. Если воздей30
ствие изучаемого фактора- признак бинарный, т.е. воздействие фактора имело или не имело место, то возможна разбивка на четыре группы: пациенты из группы случаев подразделяются на: a- подверженных и c- не подверженных
воздействию фактора риска. Подобным же образом лица из
контрольной группы также подразделяются на: b- подверженных и c – не подверженных воздействию фактора. Таким образом, общее число случаев составит a+c, а общее
число лиц в контрольной группе – b+d. Если имеется связь
между воздействием изучаемого фактора и развитием данного заболевания, то следует ожидать большую долю лиц,
подверженных воздействию фактора в группе случаев
(a/a+c), по сравнению с их долей в контрольной группе (b/
b+d).
Таблица 2. Дизайн исследования “случай- контроль”
Определение
подверженности воздействию изучаемого фактора
Были подвержены воздействию фактора
Не были подвержены
воздействию фактора
Всего
Доля лиц, подверженных воздействию фактора
Отбор групп
Группа
Контрольслучаев ная группа
a
b
c
d
a+c
b+d
a/ a+c
b/ b+d
Данные, полученные в результате исследования по типу
“случай-контроль”, позволяют рассчитать отношение шансов (odds ratio) наступления события в группе случаев к
шансам наступления события в контрольной группе. Шанс
– это отношение числа людей в группе, у которых данное
событие наступило, к числу людей, у которых данное собы31
тие не наступило. Так, если в группе из 100 человек частота
события (event rate) равна 0,20, это значит, что у 20 человек
событие наступило, а у 80 не наступило, и шанс будет составлять 20/80 или 0,25. Отношение шансов, равное единице, указывает на отсутствие различий между сравниваемыми группами. Если отношение шансов выше единицы, это
означает, что риск развития заболевания в группе экспонированных выше по сравнению с группой некспонированных.
Гипотетический пример проведения исследования “случай-контроль” приведен и в таблице №3. Было проведено
исследование по выявлению связи между курением и развитием коронарной болезни. Исследователи начали исследование со сравнения 200 пациентов с коронарной болезнью
(группа случаев) с 400 лицами без данной патологии (контрольная группа). В случае наличия связи между курением
и развитием коронарной болезни, мы должны были бы
предвидеть большую долю курящих среди лиц с коронарной болезнью по сравнению с их долей в контрольной
группе. В ходе исследования было установлено, что из 200
пациентов с коронарной болезнью 112 - курили, и 88 - не
курили. Из 400 лиц в контрольной группе 176 - курили, и
224 - не курили. Таким образом, доля курящих в группе
случаев и в контрольной группе составляла соответственно
56% и 44%. Отношение шансов в этом случае составит:
Это означает, что у курящих риск разви112 / 176
= 1.6
тия коронарной болезни, по сравнению с
88 / 224
некурящими, выше в 1.6 раза.
32
Таблица 3. Гипотетический пример исследования “случай-контроль” по изучению связи между курением и
развитием коронарной болезни.
Число курящих
Число не курящих
Всего
% курящих
Больные с
коронарной
болезнью
112
88
200
56,0
Лица без коронарной болезни
176
224
400
44,0
Следует отметить, что используя данные исследования
“случай-контроль” мы не можем оценить истинную распространенность изучаемого заболевания среди населения, из
которого были отобраны две сравниваемые группы. В рассмотренном выше примере в исследование были включены
200 больных с коронарной болезнью и 400 человек без указанной патологии, но это не означает, что распространенность коронарной болезни составляет 33%, или 200/
200+400. Решение включить в исследование то или иное
число лиц в контрольную группу и группу случаев принимается исследователем и является произвольным решением.
В рассмотренном примере, например, исследователь мог
включить в исследование 200 больных и 200 здоровых или
200 больных и 800 здоровых.
В заключение следует отметить, что отличительной чертой исследования “случай-контроль” является то, что данное исследование начинается с формирования группы лиц с
определенным заболеванием (группа случаев) и без него
(контрольная группа) и дальнейшего их сравнения. В противоположность исследованию случай-контроль, когортное
исследование, например, начинается с формирования и
сравнения групп людей подверженных и не подверженных
воздействию изучаемого фактора. В некоторых случаях
приходится сталкиваться с ошибочным представлением о
33
том, что основное различие между когортным исследованием и исследованием случай-контроль заключается в том,
что когортное исследование является проспективным, а исследование “случай-контроль”- ретроспективным. Как известно, в ретроспективном когортном исследовании исследователями также используются данные, зарегистрированные в прошлом. Таким образом, календарное время не является характеристикой, отличающей когортное исследование
и исследование “случай-контроль”. Единственное, что, в
действительности, отличает эти два дизайна, это их методология, а именно - начато ли было исследование с формирования групп больных и здоровых (исследование случайконтроль) или подверженных и не подверженных воздействию изучаемого фактора (когортное исследование).
К основным преимуществам исследований “случайконтроль” относятся следующие: 1.Исследования по типу
случай-контроль могут быть использованы для изучения
этиологии и клинического течения заболеваний. 2.Такие исследования позволяют выявлять случаи и делать сравнения
независимо от распространенности заболевания, и, следовательно, они позволяют изучать редкие заболевания, заболевания с длительным латентным периодом между экспозицией и манифестацией. 3. Это недорогие исследования по
сравнению с когортными исследованиями. 4. Они могут
быть начаты и проведены за сравнительно короткий отрезок
времени, так как группу случаев можно набирать в специализированных клиниках или из регистров заболеваний, а не
искать или ожидать появления случаев в определенной популяции риска.
И наконец, следует отметить, что 5. исследования «случай-контроль» позволяют изучить множественные потенциальные причинные агенты заболеваний (экспозиции).
К числу недостатков исследований «случай-контроль»
относят подверженность систематическим ошибкам, так как
информация об экспозиции и анамнезе бывает основана
прежде всего на данных опроса и может быть подвержена
34
предвзятости отбора. Подтверждение информации относительно экспозиции очень часто затруднительно, неполно
или даже невозможно. В исследованиях “случай-контроль”
важной проблемой является проблема репрезентативности
выборки случаев, так как выборка обычно формируется
только из числа больных, находящихся на стационарном
лечении. Кроме того, этот дизайн исследования не подходит
для изучения редко встречающихся экспозиций.
Поперечные исследования
(исследовани распространенности)
Поперечные исследования (cross—sectional study, prevalence study, survey), в противоположность продольным, или
лонгитудинальным исследованиям, — это обсервационные
исследования, которые рассматривают связь между заболеваниями (или иными характеристиками состояния здоровья)
и другими изучаемыми переменными в определенной популяции в данное конкретное время (и болезнь, и факторы, ее
вызывающие, оцениваются одновременно). Т.е. в поперечных исследованиях обследование каждого пациента выполняется однократно. В результате можно описать картину
болезни у одного пациента или у группы, уточнить симптоматику, связать отдельные симптомы с основным диагнозом
и тяжестью болезни, т.е. решить множество важных вопросов. Эти исследования применяются очень широко. Чаще
всего целью одномоментного исследования является изучение ситуации относительно какого-либо заболевания среди
населения на определенный момент. Это исследование позволяет определить распространенность заболевания и факторов, способствующих и препятствующих его возникновению, поэтому поперечные исследования называют иногда
исследованиями распространенности. Под распространенностью (prevalence) понимается отношение числа лиц с
признаками заболевания (согласно выработанным критериям) к числу обследованных лиц.
35
Источником информации в исследованиях данного типа
являются как опросы, так и медицинские обследования населения.
Очень часто данные по распространенности заболеваний
используются для этиологических выводов, поэтому понимание ограничений поперечного исследования является
чрезвычайно важным.
Дизайн поперечного исследования
Дизайн исследования представлен на рисунке 2. Сначала
определяется популяция или выборочная совокупность, которая должна быть обследована. Затем посредством сбора
данных определяется наличие воздействия изучаемого фактора и наличие данного заболевания у каждого из участников исследования. Таким образом, каждый из них может
быть отнесен в одну из четырех возможных групп.
Рисунок 2. Дизайн поперечного исследования (I)
Определение популяции или
выборочной совокупности
Сбор сведений о наличии воздействия изучаемого
фактора и наличии заболевания
Наличие воздействия фактора,
наличие заболе-
вания
Наличие воздействия фактора, отсутст-вие заболе-
вания
Отсутствие воздействия фактора, наличие заболевания
Отсутствие воздействия фактора, отсутст-вие
заболевания
Полученные данные могут быть представлены и в виде
рисунков 3 и 4, которые также показывают два подхода к
интерпретации результатов поперечного исследования.
36
Для каждого из обследованных в выборочной совокупности численностью в n человек определяется наличие воздействия фактора и наличие заболевания. Как видно из рисунков 3 и 4, у a человек было выявлено и наличие воздействия фактора, и наличие заболевания; у b человек - выявлено наличие воздействия фактора, но отсутствие заболевания; у с человек - было выявлено отсутствие воздействия
фактора, но наличие заболевания; у d человек - выявлено и
отсутствие воздействия фактора, и отсутствие заболевания.
Для определения наличия связи между воздействием изучаемого фактора и развитием данного заболевания имеются
две возможности: можно определить распространенность
заболевания у лиц с воздействием фактора риска (a/ a+b) и
сравнить ее с уровнем распространенности заболевания
среди лиц, не подверженных воздействию фактора риска
(c/c+d); можно также сравнить распространенность воздействия фактора риска среди лиц с данным заболеванием (a/
a+c) и лиц без заболевания (b/ b+d).
Рисунок 3. Дизайн поперечного исследования (II)
Наличие
фактора
риска
Отсутствие
фактора
риска
Наличие
заболевания
Отсутствие
заболевания
Распространенность заболевания среди лиц
экспозиционной и неэкспозиционной групп
a
b
a/(a+b)
c
d
c/(c+d)
37
Рисунок 4. Дизайн поперечного исследования (III)
Наличие фактора риска
Отсутствие фактора риска
Частота встречаемости фактора
риска у лиц, имеющих и не имеющих данное заболевание
Наличие
заболевания
Отсутствие
заболевания
a
b
c
d
a/(a+c)
b/(b+d)
Распространенность заболевания среди лиц, подверженных и не подверженных воздействию фактора риска составит соответственно: a/ a+b против c/c+d. Распространенность воздействия фактора риска среди больных данным
заболеванием и здоровых: a/ a+c против b/ b+d.
Как уже было сказано, поперечные исследования проводятся довольно-таки часто в связи с наличием у них ряда
преимуществ. Эти исследования, по сравнению с другими
аналитическими обсервационными исследованиями, просты
и недороги, так как требуют относительно мало времени
для проведения. Они позволяют определить уровень распространенности заболеваний или изучаемых факторов
риска среди населения. Кроме того, эти исследования часто
являются первым шагом в направлении поиска факторов
риска и формулировки гипотез.
В то же время поперечные исследования имеют и ряд
существенных недостатков:
1. Поперечное исследование не всегда позволяет обнаружить связь между причиной и следствием во времени, поэтому эти исследования не дают правильного представления
о причинах заболеваний. Например, если в поперечном исследовании у 30% больных инсультом выявлена депрессия,
это еще не значит, что у 30% больных инсультом без депрессии она наступит в будущем. Это может означать, что
депрессия предрасполагает к развитию инсульта или же ин38
сульт способствует депрессии, либо что больные инсультом
без депрессии выздоравливают быстрее.
2. При поперечном исследовании в поле зрения исследователей попадают лишь больные, выявленные в момент обследования, не учитываются лица, умершие от изучаемого
заболевания, выздоровевшие и больные, выбывшие по другим причинам. Это ведет к недооценке частоты случаев заболевания. Таким образом, показатель распространенности
не отражает в полной мере реальной частоты развития болезни.
3. Одномоментные исследования обычно охватывают
большой контингент населения, и чем меньше распространенность заболевания, тем этот контингент должен быть
больше, чтобы выявить достаточное число случаев заболевания.
4. В поперечном исследовании нельзя проверить прогностическую значимость диагностического метода, используемого в популяционном исследовании.
5. При сопоставлении характеристик больных и здоровых
лиц в ходе поперечного исследования встречаются определенные трудности. Некоторые характеристики, выявляемые
при поперечном исследовании у лиц с заболеванием, могут
не совпадать с характеристиками, которые имелись в начальной стадии развития заболевания. Например, изучение
особенностей питания у лиц среднего возраста, страдающих
ИБС, имеет ограниченное значение, так как атеросклероз
начинает развиваться уже в юношеском возрасте, кроме того, заболевший человек мог изменить характер питания в
результате заболевания.
Все перечисленные выше недостатки ограничивают
применение поперечных исследований в популяции.
Когортные исследования
Когортное исследование (cohort study) — обсервационное исследование, в котором выделенную по определенным
признакам группу людей (когорту) наблюдают в течение
39
некоторого периода времени и сравнивают исходы у тех,
кто подвергался и не подвергался воздействию изучаемого
фактора (или нескольких факторов), либо подвергался в
разной степени (рисунок 5).
Когортные исследования называют также продольными,
или лонгитудинальными (longitudinal study), подчеркивая
тем самым, что пациенты прослеживаются во времени; проспективными (prospective study), имея в виду, что группа
сформирована в настоящее время и прослежена в будущем;
или исследованиями заболеваемости (incidence study), обращая внимание на то, что основным способом оценки является регистрация новых случаев заболевания в течение
определенного срока .
Время наблюдения при когортном исследовании может
быть от нескольких дней (при острых заболеваниях) до нескольких десятков лет (при изучении болезней с длительным латентным периодом).
Чаще всего целью когортных исследований является доказательство этиологических гипотез, т.е. поиск причин и
факторов риска развития заболеваний.
В случае наличия связи между воздействием изучаемого
фактора и развитием заболевания мы должны были бы ожидать больший удельный вес лиц с развитием данного заболевания (частота новых случаев среди подверженных воздействию фактора) среди тех, которые были подвержены
воздействию изучаемого фактора риска, по сравнению с
удельным весом заболевших среди лиц, не подверженных
воздействию фактора риска (частота новых случаев среди
не подверженных воздействию фактора).
Как видно из таблицы 4, начинается исследование с отбора лиц, подверженных и не подверженных воздействию
изучаемого фактора (факторов). Из a + b подверженных
воздействию фактора лиц заболевание развилось у а лиц.
Таким образом, частота новых случаев среди подверженных
воздействию фактора, будет равна: a/ a + b. Подобным же
образом, из c + d не подверженных воздействию фактора
40
лиц, заболевание развилось у c лиц, значит, частота новых
случаев среди не подверженных воздействию фактора будет
равна: c/ c+d.
Рисунок 5. Дизайн когортного исследования
Лица с наличием
воздействия фактора
Развитие
заболевания
Лица без наличия
воздействия фактора
Отсутствие
заболевания
Развитие
заболевания
Отсутствие
заболевания
Выделение групп лиц
Таблица 4. Дизайн когортного исследования
Группа
лиц,
подверженных
воздействию
изучаемого
фактора
Группа лиц, не
подверженных
воздействию
изучаемого
фактора
Наблюдение за развитием
изучаемого заболевания
Заболевание Заболевание
развилось
не развилось
Всего
Частота
новых
случаев
a
b
a+b
a/ a + b
c
d
c+d
c/ c+d
Полученные данные позволяют рассчитать относительный риск развития заболевания (Relative Risk - RR) – отношение риска в группе экспонированных к риску в группе
неэкспонированных. Риск (доля, вероятность или процент)
– это отношение числа людей, у которых состоялось данное
событие, к общей численности группы.
41
Если относительный риск равен единице, это указывает
на отсутствие различий между сравниваемыми группами.
Если он выше единицы, это означает, что риск развития заболевания в группе экспонированных выше, по сравнению с
группой неэкспонированных.
Все указанные расчеты приводятся в гипотетическом
примере когортного исследования по изучению связи между курением и развитием коронарной болезни (Таблица 5).
Таблица 5. Результаты гипотетического когортного исследования взаимосвязи между курением и развитием
коронарной болезни
Сначала
выделяются
группы
лиц:
Курящих
Не
курящих
Затем следят за развитием
изучаемого заболевания:
Развитие
Отсутствие
коронарной коронарной
болезни
болезни
84
2916
87
4913
Всего
Частота
новых
случаев
на 1000
3000
28.0
5000
17.4
Как видно из приведенной таблицы, в данном исследовании была выделена когорта, состоящая из 3000 курящих и
5000 не курящих. Все наблюдаемые лица в начале исследования не имели коронарной болезни. Обе группы наблюдались в течение длительного периода времени с целью выявления развившейся коронарной болезни. Далее были сравнены частоты новых случаев коронарной болезни у обеих
сравниваемых групп. Коронарная болезнь развилась у 84
курящих и 87 не курящих. В итоге, показатель новых случаев заболевания среди курящих составил 28.0 на 1000, а среди не курящих- 17.4 на 1000. Относительный риск будет равен: 28.0/17.4 = 1.6. Это означает, что риск курения увеличивает риск развития коронарной болезни на 60%.
42
Следует обратить внимание на то, что, так как мы выявляем новые случаи заболевания по мере их возникновения,
это позволяет нам установить наличие временной взаимосвязи между воздействием изучаемого фактора и развитием
данного заболевания, т.е. установить предшествовало ли
воздействие фактора развитию заболевания. Разумеется, такая временная связь может быть установлена, если мы рассматриваем изучаемый фактор в качестве возможной причины данного заболевания.
Виды когортных исследований
Основная проблема, связанная с проведением когортных
исследований заключается в том, что для выявления случаев развития изучаемого заболевания исследуемая популяция
должна наблюдаться в течение длительного периода времени. Рассмотрим в качестве примера гипотетическое исследование изучения взаимосвязи между курением и развитием
рака легких. Предположим, исследователями была выделена и в течение 10 лет прослежена определенная группа
школьников. По прошествии 10 лет, все наблюдаемые были
разделены на две группы: группу курящих и не курящих.
Наблюдение за обеими группами было продолжено с целью
выявления у них случаев развития рака легких. Предположим, исследование было начато в 1995 году (рисунок 6) и
латентный период с момента начала курения до развития
рака легких составляет 10 лет. Так как промежуток времени
с момента выделения обследуемой группы школьников до
определения их отношения к курению в подростковом периоде будет длиться примерно 10 лет, понятно, что их отношение к курению не будет определено ранее 2005 года, а
факт развития рака легкого не может быть установлен ранее
2015 года.
Описанный вид дизайна называется параллельным, или
проспективным когортным исследованием (concurrent, prospective cohort study). Он называется параллельным, по43
скольку исследователь определяет исходную совокупность
в самом начале исследования и в сущности сопровождает
участников исследования в течение календарного времени
до развития изучаемого заболевания.
Рисунок 6. Гипотетическое параллельное когортное исследование, начатое в 1995 году
Население
1995
Отсутствие рандомизации
2005
2015
Подверженность
воздействию фактора
Наличие
заболевания
Отсутствие
заболевания
Отсутствие фактора
Наличие заболевания
Отсутствие
заболевания
Проблема заключается в том, что предпринятое исследование должно продолжаться до завершения, по меньшей
мере, 20 лет. И в связи с этим возникает ряд проблем.
Во первых, такое длительное исследование требует очень
больших затрат и времени, и финансов. Кроме того, в связи
с длительностью исследования есть риск того, что многие
из участников исследования выйдут из-под наблюдения,
исследователи могут не дожить до завершения исследования. В связи с указанными проблемами исследователи
обычно находят проспективные когортные исследования не
привлекательными.
44
Рисунок 7. Гипотетическое ретроспективное когортное
исследование, начатое в 1995 году
Население
1975
Отсутствие рандомизации
1985
1995
Подверженность
воздействию фактора
Наличие
заболевания
Отсутствие
заболевания
Отсутствие фактора
Наличие заболевания
Отсутствие
заболевания
Означают ли указанные проблемы, что когортные исследования не практичны? Давайте рассмотрим другой подход
к проведению когортного исследования (рисунок 7). Предположим, что мы начали свое исследование опять-таки в
1995 году, но на этот раз в нашем распоряжении оказался
список школьников 1975 года, и в 1985 году было проведено исследование по выяснению отношения членов этой
группы школьников к курению. Используя данные 1995 года, мы можем определить, у кого из указанной группы лиц
развился рак легких, у кого он отсутствовал. Этот дизайн
называется ретроспективным, или историческим когортным исследованием (historical, retrospective cohort study).
Нужно отметить, однако, что дизайн ретроспективного
когортного исследования не отличается от дизайна проспективного исследования: в обоих случаях мы сравниваем
экспонированные (подверженные воздействию фактора) и
неэкспонированные (не подверженные воздействию фактора) группы. Что отличает ретроспективное исследование от
45
проспективного? В ретроспективном - используются архивные данные и, следовательно, вся интересующая исследователя информация может быть получена гораздо быстрее.
Это не параллельное исследование, так как для сокращения
времени проведения исследования мы начинаем его с уже
имеющейся популяцией. Таким образом, главное различие
между этими видами исследования заключается в различном календарном времени. В проспективном исследовании
группы экспонированных и неэкспонированных выделяются по мере их появления в ходе исследования, после чего
указанные группы наблюдаются в течение нескольких лет и
вычисляется частота возникновеноя новых случаев заболевания. В ретроспективном исследовании наличие воздействия фактора устанавливается из архивных документов, а исход (развитие заболевания или его отсутствие) - в то время,
когда было начато исследование.
Основными преимуществами когортных исследований
являются следующие:
Во–первых, в отличие от исследований “случайконтроль” и поперечных исследований, в когортных исследованиях экспозиция предшествует заболеванию, это отвечает критерию временной последовательности при установлении причинных связей.
Во-вторых, эти исследования могут быть использованы
для изучения относительно редких экспозиций при тщательном отборе групп по характеру экспозиции.
В-третьих, когортные исследования позволяют изучить
широкий спектр патологий, связанных с воздействием изучаемой экспозиции.
В-четвертых, они позволяют изучить широкий спектр
факторов риска, связанных с развитием изучаемого заболевания. Кроме того, когортные исследования могут дать подробную информацию о мешающих факторах, что позволяет
их контролировать на стадии планирования или при анализе
данных. Когортные исследования предоставляют подробные данные об экспозиции.
46
Но когортные исследования имеют также и ряд недостатков. Они очень объемны, значительно превышают объем
исследований “случай-контроль”. В связи с большим объемом и длительностью наблюдения когортные исследования
требуют значительных затрат времени и денег. Эти исследования не подходят для исследования редких заболеваний:
число лиц, которых необходимо включить в исследование,
настолько велико, что делает проведение когортного исследования практически нецелесообразным. Кроме того, существенным недостатком когортного исследования является
то, что в течение длительного периода наблюдения за когортой многие из ее членов могут выйти из-под наблюдения, что приведет к возникновению ошибок.
ЭКСПЕРИМЕНТАЛЬНЫЕ ИССЛЕДОВАНИЯ
Экспериментальные исследования в медицинской литературе встречаются гораздо чаще обсервационных.
Экспериментальное исследование (Experimental study)
– это исследование, условия проведения которого находятся
под прямым контролем исследователя.
Экспериментальные исследования с участием людей называются клиническими испытаниями (Clinical trials). Их
целью является исследование эффективности и безопасности медицинского вмешательства (применения новых лекарств, медицинской техники, методов лечения или профилактики).
Клинические испытания делятся на две группы: с контрольной группой и без нее. Испытания с контрольной
группой, или контролируемые клинические испытания (controlled clinical trials) – это исследования, в которых проводят
сравнение одной и более групп вмешательства (экспериментальной группы) с одной и более группами сравнения
(контрольной группой). Иными словами, испытуемый лекарственный препарат или, допустим, диагнoстическая процедура сравнивается с другим ранее использующимся пре47
паратом или процедурой (параллельный контроль различных препаратов), с отсутствием вмешательства (контроль с
отсутствием лечения) или с плацебо (плацебо-контроль).
Таким образом, экспериментальные группы подвергаются
определенным вмешательствам или разным режимам одного вмешательства. Контрольные группы находятся точно в
таких же условиях, как и первые, за исключением того, что
составляющие их пациенты не подвергаются изучаемому
вмешательству. Во всех группах наблюдают клиническое
течение заболевания, и любые отличия в исходах приписывают изучаемому вмешательству.
В клинических испытаниях без контрольной группы, или
неконтролируемых клинических испытаниях (uncontrolled
clinical trials), исследователь лишь описывает результаты
применения экспериментального вмешательства без сравнения с контрольной группой.
Так как целью клинических испытаний является определение большей эффективности испытуемого средства, по
сравнению с другими средствами, клинические испытания с
контрольными группами, по сравнению с испытаниями без
контрольных групп, позволяют с большей точностью определить, является ли большая эффективность результатом
применения экспериментального средства или результатом
воздействия другого фактора. Именно поэтому клинические
испытания с применением контрольных групп считаются в
медицине имеющими большую валидность, по сравнению с
испытаниями без контрольных групп.
При планировании клинических испытаний в зависимости от конкретных условий и целей может быть выбран различный порядок их проведения. Для каждого дизайна исследования сегодня сформировались определенные требования к его подготовке, специфические стандарты качества
проведения, обработки и представления данных. Чаще всего
из контролируемых испытаний применяют два варианта дизайна:
48
1) клиническое исследование в параллельных группах (parallel, оr concurrent, group design);
2) клиническое исследование в «перекрестной модели»
(crossover group design).
Клиническое исследование в параллельных группах – это
способ клинического исследования, при котором контрольная группа набирается одновременно по тем же правилам,
что и экспериментальная группа. В этом случае каждый пациент попадает под одну из схем лечения, проходящих испытания. Каждой схеме лечения соответствует своя терапевтическая группа, и все пациенты, отнесенные к той или
иной терапевтической группе, получают одинаковое лечение. Несмотря на то, что клинические исследования в дизайне параллельных групп дорогостоящие, продолжительные и требуют большого количества испытуемых, они применяются широко, поскольку являются наиболее объективными в определении эффективности лечения и точными в
формулировании выводов, а также позволяют избежать некоторых видов систематических ошибок, которые неизбежны при исследованиях с историческим контролем.
49
Рисунок 8. Схема клинического исследования с параллельным контролем
Определение выборочной совокупности
Рандомизация
Вмешательство
Контроль
Оценка результатов
Перекрестное клиническое исследование (Cross-over
group design) – исследование, при котором между экспериментальной и контрольной группами почти нет различий:
обе группы получают по очереди оба сравниваемых препарата. С этой целью пациентов рандомизируют в группы, в
которых они проходят одинаковое курсовое лечение, но с
различной последовательностью. Например, в первом периоде одной группе пациентов дают контрольное лечение, а
второй - изучаемое новое. Во втором периоде лечение в
двух группах меняется. Сопоставляется эффект от лечения в
каждой группе, в каждом периоде. Таким образом, в перекрестной модели клинического испытания каждый пациент
является и опытным, и контрольным. Следовательно, клиническое исследование в «перекрестной модели» позволяет
оценить на одних и тех же испытуемых эффекты как изучаемых лекарственных препаратов, так и сравнительных
курсов лечения. Такой подход обеспечивает более надежное
тестирование терапевтического эффекта при меньшем числе
пациентов, чем схема параллельного группового анализа.
50
Эта схема применяется у пациентов со стабильным течением заболевания, обычно хронического характера. Перекрестные варианты дизайна часто находят свое место при проведении клинико-фармакологических испытаний.
Рисунок 9. Схема двухпериодного перекрестного исследования лекарственного средства А в сравнении с плацебо Б
Определение выборочной совокупности
Рандомизация
Вмешательство А
Период 1
Вмешательство Б
Вмешательство Б
Период 2
Вмешательство А
Кроме того, к экспериментальным исследованиям с наличием контрольных групп относятся также исследования
“до-после” и исследования с историческим контролем.
Исследование “до–после” (before–after study)– клиническое исследование, описывающее течение заболевания в
одной группе пациентов, подвергающейся изучаемому
вмешательству. В данном случае одна и та же группа пациентов рассматривается и как контрольная, и как экспериментальная группа. Данный подход основан на предположении, что любое улучшение, наблюдаемое после лечения,
обусловлено именно лечением. Это предположение может
оказаться ложным, что делает указанный метод весьма уязвимым.
51
Исследования с историческим, или непараллельным контролем (historical or nonconcurrent control) — способ клинического исследования, при котором результаты современного лечения сравниваются с данными наблюдения аналогичных пациентов в прошлом. Таким образом, это исследование противоположно параллельному контролю (concurrent
control), при котором контрольная группа набирается одновременно по тем же правилам, что и экспериментальная
группа. В исследованиях с использованием исторического
контроля высок риск систематической ошибки, связанной с
систематическими различиями между сравниваемыми
группами из-за изменения со временем риска, прогноза, медицинской помощи и т.п.
Сопоставляемые группы больных в клинических исследованиях должны быть однородны по всем признакам, которые могут оказать влияние на исход заболевания. Это условие выполнимо, если каждый из участников испытания
имеет равный шанс попасть как в экспериментальную, так и
в контрольную группу. Процедура, обеспечивающая случайное распределение людей в экспериментальную и контрольную группу, называется рандомизацией. Случайным
распределением достигается отсутствие различий между
двумя группами и, таким образом, снижается вероятность
систематической ошибки в клинических исследованиях
вследствие различий групп по каким-либо признакам.
На рисунке 8 приведен гипотетический пример воздействия недостаточной сопоставимости сравниваемых групп на
результаты сравнения уровня летальности в них. Предположим, было проведено исследование по изучению эффективности профилактических мероприятий по снижению
уровня летальности больных, страдающих инфарктом миокарда. В исследование было вовлечено всего 2000 больных
с указанной патологией, из коих у 700 наблюдалась аритмия, у остальных 1300 - она отсутствовала. Уровень летальности среди больных с аритмией составлял 50%, среди
больных без аритмии - 10%.
52
В обе группы: в группу, где проводились профилактические мероприятия (1-ая группа), и группу, где они не проводились (2-ая группа), было включено по 1000 больных, перенесших инфаркт миокарда.
Если группы по частоте встречаемости аритмии были не
сопоставимы, например, в первой группе из 1000 больных
только 200 имели аритмию (с уровнем летальности 50%), а
во второй группе из 1000 больных аритмией страдали 500,
то показатель летальности в первой группе составит 18%, а
во второй группе - 30%. В результате мы можем заключить,
что проведенные профилактические мероприятия имели
высокую эффективность.
Предположим теперь, что группы были сопоставимы по
частоте встречаемости аритмии: в каждой из двух сравниваемых групп было по 350 больных, страдающих аритмией.
В этом случае уровень летальности в обеих группах составит 24%. Таким образом, разница между двумя сравниваемыми группами (с проведением профилактических мероприятий и без их проведения) в том случае, когда группы
были не сопоставимы по частоте встречаемости аритмии,
была обусловлена лишь несопоставимостью сравниваемых
групп, а не воздействием профилактических мероприятий.
Может возникнуть вопрос, зачем нам беспокоиться по
поводу сопоставимости групп, если можно использовать
метод стандартизации показателей. Дело в том, что стандартизация показателей позволит нам устранить влияние
только тех факторов о существовании которых мы знаем.
Но существует множество других факторов, которые также
могут влиять на результаты исследования, о некоторых из
них мы можем даже не знать. Рандомизация увеличивает
вероятность того, что группы будут сопоставимы не только
в отношении факторов, о существоствовании которых мы
знаем, но также в отношении тех факторов, о возможности
воздействия которых мы не подозреваем.
Tаким образом, задача рандомизации состоит в том, чтобы обеспечить такой подбор больных, при котором кон53
трольная группа отличалась бы от экспериментальной только методом лечения. Рандомизация является обязательным
условием хорошо спланированного экспериментального исследования. Тем не менее, по некоторым данным, на сегодняшний день всего лишь 20% статей, публикуемых в ведущих международных медицинских журналах, содержат
результаты рандомизированных исследований.
Результаты нескольких рандомизированных исследований, посвященных изучению какой-то определенной проблемы, могут объединяться. Количественный анализ объединенных результатов нескольких клинических испытаний
одного и того же вмешательства называют мета-анализом.
За счет увеличения размера выборки при мета-анализе
обеспечивается большая статистическая мощность, чем в
каждом отдельном испытании.
Для осуществления рандомизации могут использоваться
таблицы случайных чисел, метод конвертов или метод последовательности случайных чисел, генерируемой различными компьютерными программами.
54
Рисунок 10. Сравнение рандомизированного и нерандомизированного исследований
I . Нерандомизированное исследoвание
n = 2000
1000
1000
Отсутствие профилактических мероприятий
Проведение профилактических мероприятий
800
Случаи
80
смертей:
Общее
│
200
100
500 │
500
50
250
180
300
Летальность: 180/1000 = 18%
300/1000 =30%
число
смертей:
55
II. Рандомизированное исследование
n = 2000
1000
1000
Отсутствие профилактических мероприятий
Проведение профилактических мероприятий
650
350
650
350
Случаи 65
смертей:
175
65
175
Общее
число
смертей:
240
240
Летальность: 240/1000 = 24%
240/1000 =24%
Ниже приведен фрагмент из таблицы случайных чисел .
Таблица состоит из групп, составленных из пяти строк и
пяти столбцов. Это деление предусмотрено для облегчения
восприятия таблицы. Столбцы пронумерованы сверху вниз:
00, 01, 02 и т.д. Подобным же образом, слева направо пронумерованы строки: 00, 01, 02 и т.д. Как использовать таблицу случайных чисел? Предположим, запланировано проведение исследования, в котором должны сравниваться две
группы больных: получающих лечение А (группа А) и лечение Б (группа Б). Допустим, до распределения больных по
группам было принято решение рассматривать каждое не56
четное число как предписание к включению пациента в
группу А, и каждое четное число- к включению пациента в
группу Б. Для пользования таблицей сначала необходимо
выбрать стартовую точку. Выбор случайной стартовой точки необходим для исключения предсказуемости выборки.
Стартовая точка – это цифра в таблице, которая выбирается,
не глядя на таблицу, наугад. Заранее решается также вопрос
о направлении движения по таблице (горизонтально, слева
направо; горизонтально справа налево; вверх или вниз).
Предположим, мы опустили палец на цифру 5 на пересечении столбца 7 и строки 7 и решили двигаться горизонтально
в направлении слева направо. Первая цифра 5 – нечетное
число, следовательно, первый пациент должен быть включен в группу А. Следующая цифра также нечетная, значит,
второй пациент также должен быть включен в группу А.
Третья цифра 8 – четное число, третий пациент должен
быть включен в группу Б и т.д. Таким образом, исследователь не располагает заранее информацией о том, в какую из
сравниваемых групп будет включен следующий пациент.
Таблица случайных чисел
00
01
02
03
04
00-04
56348
09372
44782
04383
98190
05-09
01458
27651
54023
90952
89997
10-14
36236
30103
61355
57204
98839
15-19
07253
37004
71692
57810
76129
16263
35632
88105
59090
62032
90741
13468
02647
48457
78538
22759
12188
36782
06157
73084
48094
63302
55103
19703
74741
Имеются и другие способы использования таблицы случайных чисел. Например, мы можем решить, что цифры от
05
06
07
08
09
57
0 до 4 будут предписанием к включению пациентов в группу А, а цифры от 5 до 9 – предписанием для включения их в
группу Б. Каждый из указанных методов имеет одинаковую
валидность, но всегда заранее, до проведения рандомизации
необходимо в письменной форме указывать, какой из подходов будет использован.
Одним из способов использования таблицы случайных
чисел является приготовление непрозрачных конвертов, последовательно пронумерованных с внешней стороны: 1, 2, 3
и т.д. Внутрь каждого конверта кладется карта с указанием
вида лечения: карта с указанием лечения А будет положена
в первый конверт, карта с указанием лечения Б – во второй
конверт и так далее в соответствии со случайными числами.
Конверты запечатываются. Первый включенный в исследование пациент вскрывает конверт, и определяется группа, в
которую он должен быть включен. Вся эта процедура повторяется затем для каждого из последующих участников
исследования.
Рандомизированные исследования могут быть открытыми и “слепыми” (маскированными). Открытым рандомизированное испытание считается в том случае, если и пациент, и врач сразу после проведения рандомизации узнают о
том, какой вид лечения будет применен у данного больного.
Уровень «маскирования», или «ослепления» исследования,
может быть различным, и от этого зависит достоверность
анализа и интерпретация конечных результатов. При простом слепом методе (Blind study) только пациент не знает,
какое именно лечение ему выбрано; при двойном слепом
методе (Double-blind study) этого не знают ни пациент, ни
исследователь; при тройном слепом методе (Triple-blind
study) – не знают пациент, исследователь и даже статистик,
проводящий статистическую обработку данных. «Маскирование», или «ослепление» исследования, позволяет исключить влияние субъективных факторов на результаты лечения и таким образом, устранить систематические ошибки в
клинических исследованиях.
58
Нерандомизированное клиническое испытание
Нерандомизированное клиническое испытание - клиническое испытание в параллельных группах, в котором не
проводилось рандомизированного распределения участников по сравниваемым группам. По своей валидности эти исследования в значительной степени уступают рандомизированным, так как в них ничего не предпринимается для предотвращения возникновения систематической ошибки, связанной с распределением участников исследования по сравниваемым группам.
Имеется несколько различных подходов для распределения участников нерандомизированного исследования по
сравниваемым группам. В одном из них, например, предлагается распределять больных по группам в зависимости от
даты их поступления в стационар. Предположим, если
больной поступил в больницу в четный день месяца, он
включается в группу А, если в нечетный день - в группу Б.
Проблема в данном случае заключается в том, что в отличие
от рандомизированного исследования, в нерандомизированном исследовании исследователю заранее известно, в
которую группу будет включен следующий пациент, что
вызывает возможность возникновения систематической
ошибки, связанной с отбором.
Таким образом, основным преимуществом рандомизированных клинических испытаний является прежде всего то,
что они являются “золотым стандартом” для изучения эффективности терапевтических, профилактических и других
мероприятий как в медицине, так и в области общественного здоровья. Они позволяют с наибольшей уверенностью
утверждать, что результат является следствием вмешательства, а не какой-либо другой причины, так как посредством
сравнения групп, полностью сопоставимых во всех отношениях, за исключением исследуемого вмешательства, контролируется воздействие как известных, так и неизвестных
искажающих факторов. Эти исследования дают возмож59
ность оценки результатов воздействия одновременно нескольких вмешательств и их сочетаний.
Основными недостатками клинических испытаний являются их дороговизна, сложность методики выполнения, а
также этические проблемы, всегда возникающие при их
проведении.
В рандомизированном исследовании с целью сравнения
двух хирургических методов лечения рака молочной железы: простой и радикальной мастэктомии, один из участвующих хирургов был убежден, что радикальная мастэктомия является операцией выбора и не мог уговорить себя использовать простую мастэктомию ни у одного из своих пациентов, включенных в исследование. Во время проведения
рандомизации среди его пациентов он откладывал в сторону
те конверты, которые содержали предписания для проведения больным простой мастэктомии до тех пор, пока попадался конверт с предписанием к проведению радикальной
мастэктомии.
Этот пример наглядно демонстрирует конфликт, испытываемый многими клиницистами при включении их пациентов в рандомизированные клинические испытания. С одной стороны, врач имеет обязательство сделать все возможное для пациена, с другой стороны, когда он участвует в
клиническом испытании, он обязуется следовать инструкциям по правильному проведению исследования.
Таким образом, при проведении рандомизированных
клинических испытаний часто возникает конфликт между
ролью клинициста и ролью врача, участвующего в клиническом испытании, приводящий к возникновению систематической ошибки.
60
ОПИСАТЕЛЬНАЯ СТАТИСТИКА
В результате сбора статистического материала на практике обычно набирается большая совокупность наблюдений
(десятки, сотни, а иногда и тысячи результатов измерений
индивидуальных характеристик), поэтому возникает задача
компактного описания имеющихся данных. Для этого используют методы описательной статистики, которая, как
уже было сказано, позволяет обобщать первичные результаты, полученные при наблюдении или в эксперименте. Процедуры здесь сводятся к группировке данных по их значениям, построению распределения их частот, выявлению
центральных тенденций распределения (например, средней
арифметической) и, наконец, к оценке разброса данных по
отношению к найденной центральной тенденции.
ТАБЛИЦЫ РАСПРЕДЕЛЕНИЯ ЧАСТОТ
Совокупность неорганизованных данных сложна для
восприятия и понимания. Рассмотрим пример изучения
уровня холестерина в крови у группы, состоящей из 1054
мужчин.
Наиболее простым способом организации полученных
данных является их последовательное расположение в порядке возрастания или убывания с указанием частоты
встречаемости (P) каждой величины (V). В результате получится таблица распределения частот встречаемости имеющихся величин (таблица 6). В указанной таблице данные об
уровне холестерина обследованных 1054 мужчин приведены в порядке возрастания, минимальный зарегистрированный уровень холестерина равен 120 мг/дл, максимальный
уровень – 399 мг/дл.
При таком расположении данных в таблице, таблица получается очень громоздкой, она будет более привлекательной и понятной, если ее данные представить в виде распре61
деления частот встречаемости не отдельных величин, а их
групповых интервалов.
В таблице 7 приведен пример такого сгруппированного
распределения частот. Весь диапазон величин уровня холестерина, определенных у 1054 мужчин обследованной
группы, разбили на 7 групп. Каждая из выделенных групп
имеет одинаковый интервал, в данном случае равный 40.
Как видно из таблицы 7, сгруппированное распределение
частот может быть преобразовано в распределение относительных частот встречаемости интервалов. Относительная
частота встречаемости интервала показывает удельный вес
величин, находящихся в пределах каждого группового интервала и рассчитывается путем деления частоты его встречаемости на общее число обследованных.
Так, например, удельный вес лиц с уровнем холестерина
в пределах интервала от 120- до 159 мг/дл составит
150/1054 х 100% = 14,2%.
В таблице 7 приведены также значения кумулятивных
частот. Кумулятивная частота показывает частоту встречаемости величин в пределах данного и всех предшествующих интервалов.
Согласно данным таблицы 7, 14,2% обследованных в
возрасте 25-34 года имели уровень холестерина в крови от
120- до 159 мг/дл, 41,9%- от 160 – до 199, следовательно, у
56,1% (14,2 + 41,9%) обследованных уровень холестерина
составлял 120- 199 мг/дл. Это означает, что приблизительно
56% обследованных имели значения уровня холестерина в
крови 199 мг/дл и меньше, и остальные 44% (100-56%) –
больше 199 мг/дл. Кумулятивная частота группы, которая
включает наиболее высокие уровни холестерина, в данном
случае это интервал 360- 399 мг/дл, равный 100%. Это означает, что 100% всех обследованных имеют уровень холестерина до 399 мг/дл включительно.
62
Таблица 6. Плотность распределения уровня холестерина у 1054 мужчин в возрастной группе от 25 до 34 лет
V
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
P
1
2
2
3
2
0
0
0
5
4
0
2
0
1
0
0
1
3
6
4
2
6
6
8
0
5
6
3
5
9
8
8
8
5
3
V
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
P
8
7
6
5
6
5
4
4
4
5
6
7
6
5
4
3
7
5
8
9
6
7
5
9
6
10
17
18
13
14
15
20
17
18
20
V
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
P
17
17
17
15
10
16
17
18
18
20
18
17
15
8
8
10
8
11
10
9
11
9
9
9
9
7
5
8
4
4
8
5
0
5
5
V
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
P
4
5
5
7
5
7
7
8
9
8
1
0
7
8
6
8
7
6
6
6
5
6
5
6
4
5
3
4
0
1
3
4
4
0
4
63
V
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
P
3
0
1
0
1
3
3
1
1
2
3
2
2
1
0
1
2
0
1
1
0
5
2
3
0
2
4
0
3
2
0
4
1
0
0
V
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
P
3
1
0
1
0
0
0
0
1
0
0
0
0
1
0
0
0
0
0
0
1
0
0
0
0
1
0
0
1
1
0
1
0
0
0
V
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
P
1
1
0
0
0
0
0
1
1
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
V
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
P
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
1
0
1
Таблица 7. Сгруппированное, относительное и кумулятивное распределение частот встречаемости уровня холестерина у 1054 мужчин в возрастной группе от 25 до 34
лет
Интервал
120-159
160-199
200-239
240-279
280-319
320-359
360-399
Всего
Частота
150
442
299
115
34
9
5
1054
Относительная Кумулятивная
частота
частота
14,2
14,2
41,9
56,1
28,4
84,5
10,9
95,4
3,2
98,6
0,9
99,5
0,5
100,0
100,0
ГРАФИЧЕСКОЕ ИЗОБРАЖЕНИЕ
РАСПРЕДЕЛЕНИЯ ЧАСТОТ
Обычно табличное распределение частот дополняют его
графическим представлением.
Графически распределение частот встречаемости величин признаков, относящихся к интервальной шкале, или
шкале соотношений, представляется в виде гистограммы.
Гистограмма представляет собой разновидность графика,
построенного на оси координат, на котором по оси «Х» откладываются интервалы значений определенного признака,
а на оси «Y» - соответствующие частоты или относительные частоты их встречаемости, в результате чего график
становится “ступенчатым”. На рисунке 11 представлена
гистограмма распределения частот встречаемости величин,
представленных в таблице 7. На оси абсцисс указаны интервалы уровня холестерина, на оси ординат- частоты
встречаемости величин в пределах соответствующих интервалов.
64
Рисунок 11. Гистограмма сгруппированного распределения частот встречаемости уровня холестерина у 1054
мужчин в возрастной группе 25-34 года
Для графического представления сведений о значении
количественного признака в сравниваемых группах, выделенных по номинальному признаку, обычно используется
столбиковая диаграмма. Например, если группа мужчин
численностью в 100 человек имела средний уровень холестерина в крови 218 мг/дл, а у группы обследованных женщин численностью также в 100 человек уровень холестерина составлял 190 мг/дл, средние указанных двух групп
можно представить в виде нижеприведенной столбиковой
диаграммы (рисунок 12).
65
Рисунок 12. Столбиковая диаграмма среднего
уровня холестерина в крови у 100 обследованных мужчин и женщин (мг/дл)
250
Ñðåäíèé óðîâåíü õîëåñòåðèíà, ìã/äë
200
150
100
50
0
ìóæ÷èíû
æåíùèíû
Столбиковые диаграммы очень схожи с гистограммами.
Различие между ними заключается в том, что на гистограмме прямоугольники не отделяются друг от друга, демонстрируя непрерывность групповых интервалов, тогда как на
столбиковой диаграмме каждый прямоугольник четко отделяется от другого, что свидетельствует о принадлежности
соответствующих данных разным категориям.
Для еще более наглядного представления общей конфигурации распределения частот встречаемости величин признаков, относящихся к интервальной шкале или шкале соотношений, строятся полигоны распределения частот. Для
этого отрезками прямых соединяют центры верхних сторон
всех прямоугольников гистограммы, а затем с обеих сторон
«замыкают» площадь под кривой, доводя концы полигонов
до горизонтальной оси (частота = 0) в точках, соответствующих самым крайним значениям распределения (рисунок
13).
66
Частота
Рисунок 13. Полигон распределения частот встречаемости уровня холестерина у 1054 мужчин в возрастной
группе от 25 до 34 лет
140
180
220
260
300
340
380
Уровень холестерина, мг/дл
Распределение кумулятивных частот встречаемости величин признаков, относящихся к интервальной шкале, или
шкале соотношений, может быть представлено в виде кумулятивной кривой (рисунок 14).
Рисунок 14. Кривая распределения кумулятивных частот встречаемости уровня холестерина у 1054 мужчин в
возрастной группе от 25 до 34 лет
500
Частота
400
300
200
100
0
140 180
220 260 300 340 380
Уровень холестерина, мг/дл
67
Кумулятивная кривая и распределение кумулятивных
частот встречаемости величин признака иллюстрируют
концепцию перцентилей. Перцентили являются разновидностью квантилей, которые делят распределение на опреденное число равных частей. Перцентили делят распределение на 100 равных частей. К квантилям относятся также
квартили, делящие распределение на 4 равные части, квинтили – делящие распределение на 5 равных частей и децили- делящие распределение на 10 равных частей. Однако, на
практике из квантилей чаще всего используются перцентили и квартили.
Перцентиль – это такое значение заданного распределения, которое больше «р» процентов всех значений распределения. Иначе говоря, перцентиль показывает процент тех
значений признака, которые располагаются ниже или равны
данной величине признака.
В случае сгруппированного распределения частот, например, данных, приведенных в таблице 7, перцентили показывают процент наблюдений, который находится в пределах или ниже любого группового интервала. Так, 100%перцентиль значения холестерина – это значение холестерина, при котором 100% значений находятся ниже этой точки. Это максимальное значение, в нашем случае равное интервалу 360-399 мг/дл. Аналогично, нулевой перцентиль –
это минимальное значение, в данном случае равное интервалу 120-159 мг/дл. Из таблицы также видно, что около 56%
всех обследованных имеют значения холестерина в крови
ниже величины 199 мг/дл, которая является 56-ым перцентилем. Мужчина с уровнем холестерина 199 мг/дл входит в
пределы 56-ой перцентили; 44% всех обследованных имеют
значения холестерина выше указанного уровня.
Перцентили часто используются при сравнении индивидуальных данных с нормой. Они находят широкое применение в разработке и использовании шкал для оценки уровня физического развития, уровня интеллекта. Они определяют также пределы нормы для лабораторных показателей.
68
На рисунке 15 изображена центильная шкала для оценки
физического развития девочек в возрастной группе от 0 до
36 месяцев. Для девочек в возрасте 21 месяца, например, 95ый перцентиль веса равен 12 кг (показано стрелкой). Это
означает, что 95% девочек в возрасте 21 месяца весят 12 кг
или меньше, и только у 5% девочек этой возрастной группы
значения веса тела больше 12 кг.
Рисунок 15.
Центильная шкала для оценки физического развития
девочек в возрастной группе от 0- до 36 месяцев
69
Как уже было сказано, квартили- это квантили, делящие
распределение на 4 равные части. Первый квартиль - это 25ый перцентиль, второй квартиль - 50-ый перцентиль, и третий квартиль - это 75-ый перцентиль. Половина всех наблюдений распределения находится между 25-ым и 75-ым
перцентилями. Разница между третьим и первым квартилями, или разница между 75% и 25% перцентилями, называется межквартильным разбросом. Межквартильный разброс
включает срединные 50% всех наблюдений. Например,
межквартильный разброс веса 9-месячных девочек включает значения веса между 7,5 (75-ый перцентиль) и 6,5 (25-ый
перцентиль) кг. Это означает, что 50% девочек указанной
возрастной группы имеют значения веса между 6,5 и 7,5 кг.
Рисунок 16. Кривая нормального распределения
Частота
μ=Me=Mo
Значения
Одно большое преимущество перцентилей и квартилей
заключается в том, что они являются хорошим описанием
данных вне зависимости от формы распределения. Они не
предполагают наличия так называемого, нормального распределения. Что же подразумевается под нормальным распределением?
Полигоны распределения частот могут быть различной
формы, но многие нативные явления имеют симметричное,
колокообразное распределение. Это распределение чаще
всего называют нормальным или именем автора, открывше70
го данную закономерность, Гауссовским распределением
(рис. 16).
На рисунке 17 показаны некоторые другие виды частотных распределений. Ассиметричные частотные распределения называются скошенными (skewed distributions). Ассиметричное распределение может быть скошенным вправо
(положительная ассиметрия) (рис. 17 А) или влево (отрицательная ассиметрия) (рис. 17 B). Направление скошенности
определяют по месту нахождения хвоста. Распределение с
положительной ассиметрией характеризуется наличием относительно большого числа малых значений и небольшого
числа больших значений изучаемого признака. Соответственно, при распределении с отрицательной ассиметрией
превалируют крупные значения при относительно небольшом количестве малых значений изучаемого признака.
На рисунке 17 C и D показаны также J-образное и бимодальное распределения. Бимодальное распределение часто
представляет собой комбинацию двух нормальных распределений. Например, распределение величин роста большой
группы мужчин и женщин, при котором величины каждого
пола имеют нормальное распределение относительно двух
различных средних величин.
71
Рисунок 17. Виды ненормальных частотных распределений
А. Положительная
ассиметрия
B. Отрицательная
ассиметрия
C. J –образное
распределение
D.
Бимодальное
распределение
ПОКАЗАТЕЛИ ЦЕНТРАЛЬНОЙ ТЕНДЕНЦИИ
Все распределение величин может быть представлено
одной наиболее типичной величиной, характеризующей
всю изучаемую совокупность. Эта наиболее типичая величина называется величиной центральной тенденции. К величинам центральной тенденции относятся средняя, медиана и мода. Все три величины центральной тенденции используются для характеристики данных, представленных
72
количественными признаками; медиана и мода могут использоваться также для порядковых признаков.
Мода (Мо) — это самый простой и наименее редко используемый из всех показателей центральной тенденции.
Обозначается мода символом Mo. Это значение признака,
наиболее часто встречающееся в ряду всех полученных значений. Моду можно с легкостью найти при простом обозрении распределения частот. Например, мода следующего набора данных, показывающих число родов у группы опрошенных женщин, равна 1:
0, 0, 1, 1, 1, 1, 2, 2, 2, 3, 4, 6.
На полигоне распределения частот мода соответствует
самой высокой точке кривой. Если оказывается, что каждое
значение встречается один раз (или одинаковое количество
раз), то у такого распределения не будет моды. Если с наибольшей частотой встречается не одна, а сразу две величины, то у распределения будут сразу две моды, а само распределение является бимодальным, если с наибольшей частотой встречается несколько величин - распределение будет
многомодальным.
Средняя арифметическая ( X ) — это наиболее часто
используемый показатель центральной тенденции. Она так
часто используется для описания центральной тенденции,
что в обыденном языке стала синонимом типичного значения. Она часто называется просто "средней". Формула для
расчета средней арифметической ряда данных приведена
ниже:
n
X =
∑X
1
i
,
n
где X – средняя (икс с верхним подчеркиванием). Символ Σ – математический знак суммирования измеренных
величин X i . Выражения над и под знаком суммирования
означают, что суммируется ряд величин X , обозначенных
73
индексом i, от 1 до n; n - число измеренных значений переменной х, или число наблюдений. Процедура вычисления
средней арифметической реализована не только в специализированных пакетах программ для статистического анализа
(например, SPSS, SAS и др.), но и в пакетах программ широкого назначения, например, в электронных таблицах (MS
Excel и др.).
Покажем расчет величины средней арифметической на
следующем примере. Во время вспышки гепатита А в учебном заведении заболело 6 человек. Инкубационный период
заболевших составлял соответственно: 29, 31, 24, 29, 30 и 25
дней.
Величина среднего инкубационного периода составит:
n
X =
∑X
1
n
i
=
29 + 31 + 24 + 29 + 30 + 25
= 28дней
6
Таким образом, средний инкубационный период для
больных, заболевших во время данной вспышки, был равен
28 дням.
Средняя арифметическая используется чаще других показателей центральной тенденции, т. к. она обладает удобными статистическими свойствами. Например, сумма отклонений отдельных значений от средней арифметической
равна нулю. Поясним это на примере вспышки гепатита А.
В нижеприведенной таблице показаны данные, полученные
вычитанием среднего инкубационного периода из отдельных инкубационных периодов. Приведена также и их сумма. Заметим, что она равна нулю. Это означает, что средняя
арифметическая является арифметическим центром распределения.
74
Значение
24
25
29
29
30
31
Минус значение средней
арифметической
-28
-28
-28
-28
-28
-28
168-168=0
Разность
-4
-3
+1
+1
+2
+3
-7+7=0
Средняя арифметическая является наилучшим показателем центральной тенденции, наиболее устойчивым к воздействию варьирования различных выборок. Например, при
повторном изучении образцов крови одного и того же пациента среднее число лейкоцитов в различных образцах крови
будет варьировать в значительно меньшей степени, чем
значения двух других показателей центральной тенденции.
Хотя средняя арифметическая представляет собой хорошую обобщающую характеристику ряда данных, данные
должны быть нормально, или симметрично, распределены,
так как средняя арифметическая крайне "чувствительна" к
влиянию крайних значений распределения. Например, если
бы наибольшее из перечисленных выше значений инкубационного периода у группы студентов, заболевших гепатитом А, было бы 131, а не 31, средняя арифметическая стала
бы равной 44,7, а не 28,0:
(24+25+29+29+30+131)/6 = 44,7
Полученная величина средней арифметической (44,7) находится в "центре тяжести" этих данных, но, в действительности, плохо их отражает. Под воздействием одного очень
большого («выскакивающего») значения средняя арифметическая становится больше, чем остальные значения распределения, за исключением «выскакивающего». Таким образом, средняя правильно отражает центральную тенденцию только в случае симметричного распределения. В слу75
чае несимметричного распределения данных вычислять
среднюю не следует.
Медиана (Me) является еще одним из часто применяемых видов величин центральной тенденции. Она особенно
подходит для описания асимметрично распределенных данных. Mедиана - это значение, делящее ряд последовательно
расположенных данных на две равные половины, одна из
которых состоит из наблюдений больше значения медианы,
а другая - из значений меньших медианы. Предположим,
например, что имеется следующий набор значений систолического давления крови (в мм Hg): 110,120,122,130,180.
В этом примере два значения больше 122, а два других меньше; таким образом, медиана равна 122 мм Hg, значению третьего наблюдения. Рассчитанная для данного ряда
величина средней арифметической (132 мм Hg) больше 4 из
5 значений и не может считаться типичной для указанных
данных.
В отличие от средней арифметической, медиана не так
сильно подвержена воздействию крайних значений распределения. Например, приведенные ниже ряды данных различаются только последним наблюдением:
24, 25, 29, 29, 30, 31 средняя = 28,0, медиана = 29
24,25,29,29,30, 131 средняя = 44,7, медиана = 29
Различие в одном наблюдении значительно изменяет величину средней арифметической, но совершенно не меняет
значения медианы. Таким образом, использование медианы
предпочтительнее, если ряд наблюдений смещен в одну или
в другую сторону или если набор данных имеет несколько
очень больших или очень маленьких значений.
В случае, когда распределение включает нечетное число
наблюдений, медиана равна значению признака, находящегося в середине ряда. При четном числе наблюдений, медиана равна средней арифметической двух срединных значений признака.
Отношение между тремя указанными показателями центральной тенденции зависит от формы распределения. При
76
симметричном, нормальном распределении все три величины совпадают (рис. 16), при ассиметричном распределениине совпадают.
Как при положительных, так и при отрицательных ассиметричных распределениях мода занимает самую высокую
точку на кривой распределения, средняя смещается книзу
или кверху под воздействием сравнительно малых или
больших значений; медиана располагается между средней и
модой, разбивая распределение на два равных поля под
кривой (рисунок 18).
μ
μ
Me
Me
Mo
Mo
Рисунок. 18. Показатели центральной тенденции при
положительной (А) и отрицательной ассиметрии (B)
ПОКАЗАТЕЛИ ВАРЬИРОВАНИЯ, ИЛИ РАЗБРОСА
На рисунке 19 показаны два распределения А и В. Их
средние, медианы и моды совпадают и, подобно всем кривым нормального распределения, они являются симметричными и одновершинными. Однако, несмотря на все указанные сходства, эти два распределения различны и отличаются друг от друга по степени вариабельности, т.е. по степени,
в которой их значения близки или далеки друг от друга.
Понятно, что значения, формирующие распределение А,
77
разбросаны в большей степени по сравнению со значениями, формирующими распределение В.
Отсюда можно сделать вывод, что недостаточно описывать нормальное распределение только посредством показателей центральной тенденции. Необходимо также указывать
степень варьирования, или изменчивости величин признака
в изучаемом ряду данных.
Рисунок 19. Кривые нормального распределения с одинаковыми показателями центрального распределения,
но с разными показателями варьирования.
X
M
= Me =
Величина вариабельности имеет очень большое значение. Подобно тому, как средние величины использовались
для описания местоположения пика распределения, показатели варьирования указывают, насколько велик разброс
(варьирование) данных вокруг центрального значения. Так,
например, если указанные на рисунке 19 распределения
представляют уровни глюкозы натощак у больных сахарным диабетом, принимающих два различных препарата,
предназначенных для гликемического контроля, то, понятно, что препарат В имеет преимущества по сравнению с
препаратом А, так как в распределении В меньше пациентов
с очень высокими или очень низкими значениями уровня
глюкозы, хотя и средний эффект препарата В такой же, что
и препарата А.
78
Существует несколько показателей варьирования, или
разброса: амплитуда, дисперсия, стандартное отклонение,
коэффициент вариации, квартили и межквартильный размах.
Амплитуда, или размах – самая простая из величин
варьирования. Амплитудой ряда данных называется разница между наибольшим (максимальным) и наименьшим (минимальным) значениями ряда. Следовательно, размах учитывает значения только этих двух величин ряда. Например,
в приведенных ниже рядах данных:
24, 25, 29, 29, 30, 31
24, 25, 29, 29, 0, 31, 331
амплитуда равна, соответственно: 31- 24 = 7 и 331-24 =
307.
При использовании в качестве величины центральной
тенденции средней арифметической для описания вариабельности признака используется дисперсия и стандартное
отклонение. Если же в качестве меры центральной тенденции используется медиана, то вместе с ней, как правило, используются такие меры вариабельности признака, как квартили и межквартильный размах, рассмотренные выше.
Стандартное отклонение (СО) является наиболее часто
используемой величиной варьирования и очень важной статистической величиной, важным элементом многих статистических тестов. Оно показывает разброс величин признака вокруг средней, вычисленной для данного ряда наблюдений. Обычно, стандартное отклонение, вычисленное из выборки, обозначается аббревиатурой СО, популяционное
стандартное отклонение, показывающее степень варьирования величины переменной во всей популяции, обозначают греческой буквой σ.
Какова же формула для вычисления СО? Если нам нужно
определить насколько величины признака в ряду данных
раэбросаны по отношению к вычисленной средней, можно
вычислить величину среднего отклонения, для чего из каж79
дой величины признака в представленном ряду данных ( X )
необходимо вычесть величину средней ( X ) , суммировать
все отклонения и разделить сумму на число наблюдений,
т.е.
∑(X − X ) .
n
Однако проблема заключается в том, что при четном
числе наблюдений сумма отклонений величин признака от
средней всегда равна 0. Эта проблема решается возведением
каждого отклонения в квадрат перед их суммированием.
Деление суммы квадратов отклонений на n-1, где n –
число наблюдений, позволит нам вычислить величину
варьирования, которая называется дисперсией и обозначается символом s2:
( X − X )2
∑
2
s =
n −1
Объяснение причины, по которой сумма квадратов отклонений делится на n-1, а не на n, достаточно сложно и не
входит в программу данного курса. Отметим только, что
использование в знаменателе формулы величины n-1, называемой степенью свободы, вместо n дает возможность более
точной оценки истинной величины варьирования величины
признака в популяции.
Однако дисперсия имеет величину размерности признака
в квадрате. Для того, чтобы вернуться к нормальной размерности, из дисперсии извлекается квадратный корень.
Квадратный корень из дисперсии называется стандарным
отклонением (СО):
∑(X − X )
CO = s =
2
2
n −1
Рассмотрим все указанные вычисления на следующем
примере. В таблице 8 приведены данные изменения частоты
сердечных сокращений у 18 обследованных больных и все
этапы вычисления стандартного отклонения.
80
Таблица 8. Расчет стандартного отклонения изменений
частоты сердечных сокращений в обследованной выборке из 18 больных
Пациент
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
Сумма
Средняя арифметическая
Х
19.20
51.90
33.10
86.70
29.10
45.30
14.40
67.10
64.80
15.90
75.80
42.60
74.20
41.40
85.70
22.10
64.90
43.60
877.80
48.77
Х- Х
-29.57
3.13
-15.67
37.93
-19.67
-3.47
-34.37
18.33
16.03
-32.87
27.03
-6.17
25.43
-7.37
36.93
-26.67
16.13
-5.17
(Х- Х)2
874.19
9.82
245.44
1438.94
386.78
12.02
1181.07
336.11
257.07
1080.22
730.80
38.03
646.85
54.27
1364.07
711.11
260.28
26.69
9653.76
Как видно из таблицы № 8, средняя величина изменения
частоты сердечных сокращений у группы обследованных
пациентов ( X ) составила 48.77. После чего из каждой величины X вычитается величина средней арифметической
( X − X ) . Каждое из полученных отклонений возводится в
квадрат ( X − X ) 2 . При суммировании всех квадратов отклонений получается величина ∑ ( X − X ) , равная 9653.76.
2
81
Посредством деления указанной величины на степень свободы, получим величину дисперсии, равную 567.87. Корень
квадратный из данной величины равен 23.83 и является
стандартным отклонением.
Таким образом, среднее отклонение изменения частоты
сердечных сокращений у группы обследованных составило
23.83. Полученная величина позволяет сказать, что большая
часть результатов располагается в пределах 23.83 от средней, т.е. между 24.94 (48.77-23.83) и 72.60 (48.77+ 23.83).
Что же понимается под «большей частью» результатов?
Вся площадь под кривой нормального распределения равна
100%. Статистики показали, что при нормальном распределении «большая часть» результатов, располагающаяся в
пределах одного стандартного отклонения по обе стороны
от средней, в процентном отношении всегда одна и та же и
не зависит от величины стандартного отклонения: она соответствует приблизительно 68% популяции (т.е. 34% ее элементов располагается слева и 34% — справа от средней):
Точно так же рассчитали, что 94.45% или приблизительно 95% элементов популяции при нормальном распределении не выходит за пределы двух стандартных отклонений
от средней:
82
В пределах трех стандартных отклонений от средней
умещается почти вся популяция — 99,73%.
Коэффициент вариации (СV) – это процентное отношение стандартного отклонения к среднеарифметической величине:
CO
CV =
⋅100%
X
Таким образом, в отличие от стандартного отклонения,
коэффициент вариации – это относительная мера варьирования признака. Используется коэффициент вариации для
сравнительной оценки степени вариабельности признаков,
имеющих различные единицы измерения, например, может
использоваться для оценки степени вариабельности концентраций лейкоцитов и натрия в крови. При величине коэффициента вариации до 10% вариабельность признака считается слабой, при 10-20% - средней и при величине выше
83
20% - сильной. Сильное разнообразие признака свидетельствует о малой представительности, соответствующей средней арифметической, и, следовательно, о нецелесообразности ее использования в практических целях.
Z-значения
При нормальном распределении отдаленность его любого элемента от средней арифметической может быть выражена в стандартных отклонениях, т.е. можно определить на расстоянии скольких стандартных отклонений от средней (выше или ниже) лежит та или иная величина. Это расстояние, выраженное в стандартных отклонениях, известно
под названием z-значения элемента. Если данный элемент
лежит выше средней величины, он будет иметь положительное z-значение, если ниже средней величины - отрицательное z-значение.
Формула для вычисления z-значения следующая:
z=
Xi − µ
σ
Например, если в популяции здоровых людей значения
систолического давления имеют нормальное распределение
с величиной средней арифметической, μ, равной 120 мм
рт.ст и стандартным отклонением, σ, равным 10 мм рт. ст.,
величина кровяного давления, равная 135 мм рт.ст., будет
лежать на 1.5 стандартных отклонений выше средней, следовательно, ее z-значение будет равно +1.5 (135-120/10).
Величина кровяного давления, равная 115, лежит примерно
на 0.5 стандартных отклонений ниже средней арифметической, значит ее z-значение равно – 0.5 (115-120/10).
С помощью таблицы z-значений (таблица 9) можно определить удельный вес различных величин распределения,
лежащих ниже или выше любого данного z-значения, а не
только значений z, равных ±1, 2 и 3.
84
Из таблицы № 9 видно, например, что 0,309 (или приблизительно 31%) величин распределения лежат выше значения z, равного +0,5. Так как нормальное распределение
симметрично, это также означает, что приблизительно 31%
величин распределения лежит ниже значения z, равного –
0,5. Значит, 31% указанной популяции имеет значение систолического давления, равное 115 мм рт.ст.
Z-значения стандартизированы, поэтому они позволяют
сравнивать значения различных нормальных распределений. Например, с помощью соответствующих z- значений
можно сравнивать рост человека с его весом (при условии,
что оба эти признака являются элементами нормального
распределения).
Вместо использования z-значения для нахождения
удельного веса распределения, соответствующего определенным величинам, мы может сделать обратное: использовать z-значения для нахождения значения, которое делит
распределение на определенные проценты. Например, используя таблицу z-значений, мы можем определить значение z, которое отделяет 5% лиц в популяции с наибольшими
значениями систолического давления от остальных 95%
(т.е. группу, соответствующую 95-ому перцентилю или выше него). Величина 5%, или 0.05, в таблице № 9 соответствует значению z, равному 1,645. Это означает, что соответствующая величина систолического давления лежит на
1,645 стандартных отклонений выше величины средней, т.е.
она равна μ + 1,645 σ = 120 + (1,645 х 10) = 136.45, или приблизительно 136 мм рт.ст. Мы можем заключить, таким образом, что в популяции 5% лиц с наибольшими значениями
систолического давления имеют значения указанного признака выше 136 мм рт.ст. Значение z, которое отделяет
верхние 5% популяции от остальных 95%, не равно 2. Хотя
95% величин распределения и лежат в пределах 2 стандартных отклонений от средней, эти 95% приходятся на середину площади под кривой нормального распределения. На оставшиеся два хвоста по обе стороны от площади в 95% при85
ходится 5% всего распределения. Но так как кривая нормального распределения симметрична, 2.5% распределения
лежат на 2 стандартных отклонения выше средней и 2.5%
распределения - ниже средней.
Таблица 9. Площадь под кривой нормального распределения
z
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
0.50
0.55
0.60
0.65
0.70
0.75
0.80
0.85
0.90
0.95
1.00
1.05
1.10
1.15
1.20
1.25
Площадь между значениями
– z and +z
0.000
0.040
0.080
0.119
0.159
0.197
0.236
0.274
0.311
0.347
0.383
0.418
0.451
0.484
0.516
0.547
0.576
0.605
0.632
0.658
0.683
0.706
0.729
0.750
0.770
0.789
86
Площадь в
двух хвостах
(< -z и > +z)
Площадь в
одном хвосте
(< -z или > +z)
1.000
0.960
0.920
0.881
0.841
0.803
0.764
0.726
0.689
0.653
0.617
0.582
0.549
0.516
0.0484
0.453
0.424
0.395
0.368
0.342
0.317
0.294
0.271
0.250
0.230
0.211
0.500
0.480
0.460
0.440
0.421
0.401
0.382
0.363
0.345
0.326
0.309
0.291
0.274
0.258
0.242
0.227
0.212
0.198
0.184
0.171
0.159
0.147
0.136
0.125
0.115
0.106
1.28
1.30
1.35
1.40
1.45
1.50
1.55
1.60
1.645
1.65
1.70
1.75
1.80
1.85
1.90
1.95
1.96
2.00
0.800
0.806
0.823
0.838
0.853
0.866
0.879
0.890
0.900
0.901
0.911
0.920
0.928
0.936
0.943
0.949
0.950
0.954
0.200
0.194
0.177
0.162
0.147
0.134
0.121
0.110
0.100
0.099
0.089
0.080
0.072
0.064
0.057
0.051
0.050
0.046
0.100
0.097
0.089
0.081
0.074
0.067
0.061
0.055
0.050
0.049
0.045
0.040
0.036
0.032
0.029
0.026
0.025
0.023
Z–значения позволяют также определить вероятность того, что случайно отобранный элемент будет иметь величину
признака выше или ниже указанного значения. Например,
если мы знаем, что 5% популяции имеют значения систолического давления выше 136 мм рт.ст, тогда вероятность того, что человек, случайно выбранный из данной популяции,
будет иметь величину систолического давления 136 мм
рт.ст., будет равна 5%. Подобным же образом мы можем
определить вероятность того, что человек, случайно выбранный из популяции, будет иметь значение систолического давления меньше 100 мм рт.ст. Так как 100 лежит на 2
стандартных отклонения ниже средней величины (100120/10), т. е. соответствует значению z, равному -2, и мы
знаем, что примерно 95% распределения лежит в пределах
интервала ±2, следовательно 5% распределения лежат за
пределами этого интервала: 2.5% ниже величины z= -2,
2.5%- выше величины z=+2.
87
Таким образом, вероятность того, что случайно выбранный из данной популяции человек будет иметь значение
систолического давления меньше 100 мм рт.ст., составит
2.5%.
ОТНОСИТЕЛЬНЫЕ ВЕЛИЧИНЫ, ИХ ГРАФИЧЕСКОЕ
ПРЕДСТАВЛЕНИЕ
Как уже было сказано, показатели центральной тенденции почти всегда (в особенности средняя арифметическая)
используются для характеристики данных, представленных
количественными признаками. Медиана и мода могут использоваться также для порядковых признаков.
Для характеристики данных, представленных качественными признаками, чаще всего используются относительные
величины, к числу которых относятся экстенсивные показатели, интенсивные показатели и показатели соотношения.
Экстенсивный показатель - это показатель удельного веса, доли части в целой совокупности, показатель распределения совокупности на составляющие ее части, т.е. показатель структуры. Для его расчета необходимо иметь данные
о численности всей совокупности и составляющих ее частях
(или отдельной части этой совокупности). Рассчитывается
экстенсивный показатель обычно в процентах, при этом совокупность в целом принимается за 100%, а отдельные части- за x. Формула для расчета экстенсивного показателя
следующая:
Экстенсивный показатель = Часть совокупности х 100%
Вся совокупность
Рассмотрим следующий пример вычисления экстенсивного показателя.
В районе N в текущем году было зарегистрировано 500
случаев инфекционных заболеваний, из них: эпидемического гепатита - 60 случаев, кори - 100 случаев, прочих инфек88
ционных заболеваний - 340 случаев. В структуре инфекционных заболеваний доля эпидемического гепатита составит
12% (60х100%/ 500), кори - 20% (100х 100%/500), прочих
инфекционных заболеваний - 68% (340х 100%/ 500).
Экстенсивные показатели могут быть использованы
лишь для анализа конкретной совокупности в конкретный
момент времени. Они не могут быть использованы для
сравнения различных совокупностей - это приведет к неправильным, ошибочным выводам.
Поскольку экстенсивный показатель – показатель статики, то графически он изображается только секторной или
внутристолбиковой диаграммами (рисунок 20), которые являются разновидностями плоскостных диаграмм.
На секторной диаграмме окружность представляет всю
совокупность и берется равной 100%. Каждый сектор диаграммы представляет составную часть изучаемой совокупности. На внутристолбиковой диаграмме вся совокупность
представлена прямоугольником, высота которого принимается за 100%. Удельный вес отдельных частей показывают
внутри прямоугольника, расположив части снизу вверх в
порядке убывания процентов, при этом группу «прочие заболевания» указывают последней.
Рисунок 20. Распределение инфекционных заболеваний
в районе N по нозологическим формам (в % к итогу). А –
секторная; B – внутристолбиковая.
89
Интенсивный показатель - показатель частоты встречаемости, или уровня распространенности процессов, явлений, совершающихся в определенной среде. Он показывает,
как часто встречается изучаемое явление в среде, которая
его продуцирует.
Примерами интенсивных показателей являются показатели заболеваемости, смертности, рождаемости и т.д. Для
расчета интенсивного показателя необходимо иметь данные
об абсолютном размере явления и среды, его продуцирующей. Абсолютное число, характеризующее размер явления,
делится на абсолютное число, показывающее размер среды,
внутри которой произошло данное явление, и умножается
на 100, 1000 и т.д:
Интенсивный показатель = Явление х 100 (1000 и т.д.)
Среда
Множитель зависит от распространенности явления в
среде: чем реже оно встречается, тем больше множитель, и
наоборот. На практике для вычисления некоторых интенсивных показателей множители являются общепринятыми
(так, например, большинство демографических показателей
и многие показатели заболеваемости вычисляются в расчете
на 1000 человек населения).
Определим на следующем примере показатель рождаемости. В городе А проживает 120 000 человек (среда). В
предыдущем году родилось 108 детей (явление). Показатель
рождаемости равен 9‰ (108х 1000/ 120 000).
Интенсивные показатели используются как для сравнения, сопоставления распространенности изучаемого явления во времени, так и для сравнения, сопоставления частоты встречаемости того же явления в один и тот же промежуток времени, но на различных территориях, в различных
учреждениях и т.д.
Графически интенсивные показатели могут быть представлены в виде линейной, радиальной и столбиковой диаграмм.
90
Линейная диаграмма обычно используется для представления динамики явления во времени. При этом время традиционно откладывается по абсциссе, величина изучаемого
явления - по ординате (рисунок 21).
Рисунок 21. Заболеваемость и распространенность туберкулеза в Армении (на 100 000 населения)
200
150
100
50
07
20
00
20
05
92
19
20
88
19
02
80
19
Заболеваемость
20
70
0
19
Частота встречаемости
250
Распространенность
Радиальная диаграмма является разновидностью линейной диаграммы, применяется для изображения динамики
явления за замкнутый цикл времени: сутки, неделя, месяц,
год. Радиальная диаграмма может использоваться, например, для изображения сезонных колебаний инфекционной
заболеваемости, суточных колебаний числа вызовов скорой
помощи и т.д. Циклические процессы на этой диаграмме
представлены в виде круга, замыкающего цикл. Радиус круга равен среднецикловому (например, среднемесячному)
уровню изучаемого явления (рисунок 22). Весь круг радиусами делится на число секторов, соответствующее интервалам времени изучаемого явления, и на каждом радиусе, соответственно каждому интервалу времени откладывается
величина изучаемого явления. В результате получается
многоугольник неправильной формы, изображающий колебания уровня изучаемого явления за данный период времени.
91
Рисунок 22. Сезонные изменения числа случаев заболеваний дизентерией за изучаемый год в городе N
Столбиковая диаграмма, как уже было сказано, может
использоваться для графического представления сведений о
значении количественного признака в сравниваемых группах, выделенных по номинальному признаку. Кроме того,
она может также использоваться для изображения интенсивных показателей, например, для представления частоты
встречаемости данного признака в сравниваемых группах в
данный период времени и для изображения частоты встречаемости данного признака в одной группе в разные периоды времени (рисунок 23). В последнем случае на оси абсцисс, как и в случае линейной диаграммы, откладываются
промежутки времени, а на оси ординат- величина изучаемого явления в принятом масштабе.
Рисунок 23. Заболеваемость населения страны N скарлатиной и коклюшем за предыдущий и изучаемый годы
(на 100 000 населения)
92
Показатель соотношения характеризует соотношение
между двумя не связанными между собой совокупностями,
одна из которых характеризуется наличием определенного
признака (а), а другая - его отсутствием (b). Формула для
вычисления показателя соотношения следующая:
Показатель соотношения = а / b.
Таким образом, отличительной особенностью показателя
соотношения является то, что в нем числитель никогда не
является частью знаменателя.
Показатель соотношения также иногда умножается на
множитель, равный 100, 1000, 10 000 и т.д.
Примерами показателей соотношения служат, например,
показатель обеспеченности населения больничными койками, врачами, средним медперсоналом, медицинской техникой. Первый из указанных показателей вычисляется, например, следующим образом:
Показатель
Число больничных коек х 10 000
обеспеченности населения =
Численность населения
больничными койками
Рассмотрим следующий пример. Численность населения
в городе А составляла 120 000 человек, общее число терапевтических коек в городе- 300. Обеспеченность населения
терапевтическими койками составит 25 на 10 000 населения
(300 х 10 000 / 120 000).
Примером показателя соотношения служит также показатель соотношения числа людей в группе, у которых данное событие имело место, к числу людей, у которых оно не
имело места, например соотношение числа больных и здоровых в изучаемой группе. Указанный показатель используется для вычисления отношения шансов, показывающего
отношение шансов наступления события в группе случаев к
шансам наступления события в контрольной группе, рассмотренного в разделе дизайнов исследований.
93
СТАТИСТИЧЕСКИЕ ВЫВОДЫ
Мы уже рассматривали возможность использования zзначений для определения вероятности того, что случайно
отобранный элемент будет иметь величину признака выше
или ниже указанного значения. Этот метод может быть использован в случае нормального распределения, при наличии информации о характеристиках всей генеральной совокупности (популяции), т.е. о популяционной средней арифметической и стандартном отклонении.
Однако, на практике чаще всего исследователи не имеют
сведений о средней арифметической и стандартном отклонении, характеризующих всю популяцию, так как в реальной жизни их вычисление чаще всего бывает непрактичным. Популяция может включать десятки тысяч и даже
миллионы людей, и их изучение связано со значительными
затратами. Поэтому обычно исследователи ограничиваются
изучением характеристик интересующего их явления в
сравнительно небольшой выборке, отобранной из интересующей их популяции. Таким образом, все, что им бывает
известно - это данные о средней арифметической и стандартном отклонении, полученные из выборочного исследования. Поэтому задачей исследователей чаще всего является
экстраполяция выводов, сделанных на основании изучения
выборки, на всю популяцию, из которой эта выборка была
взята.
Например, на основе испытания, проведенного с небольшой группой больных, исследователи стремятся доказать эффективность какого-либо нового лекарственного
препарата для всех пациентов, страдающих соответствующей патологией. Такую экстраполяцию выводов называют
статистическими выводами (Inferential statistics). Известно
большое число статистических методов, позволяющих сделать эти выводы.
Характеристики популяции (μ и σ), о которых делаются
выводы, принято называть параметрами, а характеристики,
94
полученные из выборочного исследования ( X и СО) - статистическими данными.
Выборка не может полностью соответствовать популяции, из которой она была отобрана, и, следовательно, статистические данные (например, выборочная средняя) не будут
в точности равными параметрам (популяционной средней).
Предположим, для изучения уровня холестерина в крови
у определенной популяции из нее была отобрана выборка
численностью в 1000 человек. Значение уровня холестерина
в крови в выборке составило 180 мг/100мл. Это, отнюдь, не
означает, что уровень холестерина в крови у людей во всей
изучаемой популяции обязательно совпадет с величиной,
полученной из выборочного исследования. При проведении
выборочных исследований обязательно бывает, так называемая ошибка выборочного исследования, которая возникает вследствие естественного варьирования величины признака. Это варьирование и является причиной разницы между значениями статистических данных, полученных из
выборочного исследования и параметрами, характеризующими популяцию.
Представим себе, что из рассмотренной выше популяции
методом случайного отбора была произведена выборка в
1000 человек, у которой был вычислен средний уровень холестерина в крови. Обозначим среднюю арифметическую,
вычисленную для первой выборки ( X 1 ) . Предположим
также, что из той же популяции была произведена вторая
выборка в 1000 человек с последующим вычислением ее
средней арифметической ( X 2 ) . Будут ли вычисленные
средние арифметические совпадать? Разумеется, нет.
Вследствие ошибки выборочного исследования они будут в
определенной степени варьировать. Если изобразить все
выборочные средние в виде кривой распределения частот,
то окажется, что полученное распределение очень похоже
на нормальное. Это распределение получило название распределения средних случайных выборок. Если процесс
95
отбора выборок и размещение полученных средних на кривой распределения будут продолжены до бесконечности,
обнаружится, что распределение, действительно, становится
нормальным. Кривая распределения выборочных средних
будет нормальной даже в том случае, если изучаемая популяция не имеет нормального распределения.
Этот принцип известен под названием центральной
предельной теоремы, которая гласит, что независимо от
формы распределения величин признака в популяции, из которой были отобраны выборки, кривая распределения выборочных средних всегда будет оставаться нормальной.
Согласно центральной предельной теореме, с увеличением
размера выборок, кривая распределения выборочных средних все более приближается к нормальной. Кроме того,
центральная предельная теорема гласит, что средняя всех
выборочных средних ( µ x ) равна истинной средней всей популяции (μ).
Подобно всем распределениям, распределение выборочных средних характеризуется не только средней, но и стандартным отклонением. Здесь, как и везде, стандартное отклонение является мерой вариабельности, показывающей
разброс элементов распределения. Это особое стандартное
отклонение выборочных средних от истинной популяционной средней, показывающее их меру вариабельности, называется стандартной ошибкой средней и обозначается символом СОС или буквой m. Чем меньше величина стандартной ошибки, тем ближе средняя любой конкретной выборки
к популяционной средней.
Однако, выборочные средние характеризуются гораздо
меньшей вариабельностью, по сравнению с индивидуальными результатами, на основе которых они были получены.
Например, вычисленные средние уровня холестерина в крови в двух различных выборках, отобранных из одной и той
же популяции, будут иметь очень близкие значения. Во всяком случае их значения будут намного ближе друг к другу,
96
чем значения уровня холестерина в крови у двух людей,
случайно отобранных из популяции.
Причина меньшей вариабельности выборочных средних,
по сравнению с индивидуальными значениями, очевидна.
Средняя арифметическая усредняет значения нескольких
индивидуальных значений. Даже при наличиии в выборке
нескольких крайних (выскакивающих) значений их влияние
будет в значительной степени сглажено воздействием нормальных значений данной переменной, составляющих
большинство. Это позволяет делать о выборке достаточно
обоснованные заключения.
Рассмотрим следующий пример. Предположим нам необходимо сравнить средний рост студентов и студентокмедиков. Если мы просто отберем 1 студента и 1 студентку
и сравним их значения роста, то скорее всего рост мальчика
будет выше роста девочки. Однако, может статься так, что
выбранная студентка будет выше мальчика. Рост как студентов, так и студенток подвержен значительной вариации,
и кривые распределения их значений роста в значительной
степени наслаиваются друг на друга, если даже средний
рост мальчиков на 15 см выше роста девочек.
Любая попытка сделать заключение на основе выборок,
включающих одно единственное наблюдение, разумеется,
бесмысленна вследствие присущей переменным вариабельности и, как следствие этого, ненадежности. Однако, было
бы очень удивительно, если бы мы, отобрав по 16 мальчиков и девочек, вдруг выявили, что средний рост девочек
значительно выше среднего роста мальчиков. Даже при наличии среди отобранных студентов небольшого числа необычно высоких девочек и мальчиков с необычно низким
ростом, их воздействие на значение выборочной средней
будет очень незначительным.
При повторном отборе нескольких выборок студентов и
студенток и вычислении выборочных средних мы заметим,
что их значения от выборки к выборке несколько варьируют. Однако благодаря эффекту сглаживания, воздействию
97
обсужденного явления усреднения эта вариация выборочных средних значительно сократится, и кривые распределения выборочных средних роста мальчиков и девочек почти
не будут наслаиваться друг на друга. Иными словами, в
сущности, любая отобранная выборка мальчиков и девочек
будет указывать на то, что, на самом деле, мальчики выше
девочек.
Таким образом, средние величины являются менее вариабельными, по сравнению с индивидуальными величинами переменных. Мы уже обсудили, что это уменьшение вариабельности является прямым следствием усреднения индивидуальных значений в выборке. Однако возникает вопрос, насколько эта вариабельность меньше и отчего зависит ее величина.
Совершенно очевидно, что вариабельность выборочных
средних будет зависеть от вариабельности индивидуальных
значений переменной, на основе которых они были вычислены. Чем больше вариабельность индивидуальных значений, тем более вариабельными будут значения средних
арифметических. Кажется одинаково обоснованным также
предположение о том, что вариабельность выборочной
средней должна зависеть от размера выборки, для которой
она была рассчитана. Выборка, включающая всего 2 наблюдения, лишь отчасти усредняет вариабельность индивидуальных значений и в значительно меньшей степени уменьшает воздействие необычайно высоких или низких значений переменной. С другой стороны, выборка, включающая
100 наблюдений, обеспечивает значительно более надежную защиту средней от воздействия необычных значений, и
средняя, полученная из такой выборки, будет внушать гораздо больше доверия, чем средняя выборки, включающей
всего 2 наблюдения.
Таким образом, вариабельность выборочных средних,
или стандартная ошибка, зависит от двух величин - стандартного отклонения и размера выборки. Отношение между
ними показано в нижеприведенной формуле:
98
m=
σ
.
n
Как видно из формулы, стандартная ошибка равна стандартному отклонению популяции, деленному на корень
квадратный из размера выборки. Чем больше значение
стандартного отклонения, т.е. чем больше наблюдения отличаются от средней, тем меньше уверенности в величине
средней и тем больше стандартная ошибка. Чем больше
объем выборки, тем больше уверенности в том, что полученная выборочная средняя будет близка к значению истинной популяционной средней и тем меньше, соответственно, стандартная ощибка.
Так как кривая распределения средних случайных выборок, по определению, является нормальной, все известные
факты о нормальном распределении и z-значениях могут
быть использованы для определения вероятности того, что
выборка будет иметь значение средней выше или ниже определенной величины, при условии, что выборка является
случайной.
Кроме того, так как независимо от формы распределения
величин переменной в популяции, из которой были произведены выборки, кривая распределения выборочных средних всегда будет оставаться нормальной, то z-значения могут быть использованы вне зависимости от формы распределения в популяции, при условии, опять-таки, что выборка
является случайной.
Методика определения выборочной средней очень схожа
с методикой определения отдельного элемента- она включает нахождение z-значений, соответствующих интересующей нас величине. Однако, вместо вычисления z-значения,
показывающего на сколько стандартных отклонений отдельный элемент лежит выше или ниже популяционной
средней, в данном случае z-значение будет показывать на
сколько стандартных ошибок данная выборочная средняя
лежит выше или ниже популяционной средней. Таким обра99
зом, формула для вычисления z-значения будет выглядеть
следующим образом:
z=
X −µ
m
Например, в популяции со средним значением систолического давления 120 мм рт.ст и стандартным отклонением,
равным 10, вероятность того, что случайная выборка в 25
человек будет иметь значение среднего систолического давления выше 125 мм рт.ст., будет рассчитана следующим образом:
z=
m=
Отсюда:
X −µ
, где
m
σ
n
=
10
=2
25
X − µ 125 − 120
=
= 2.5
m
2
Из таблицы 9 видно, что величине z, равной 2.5, соответствует вероятность 0.006.
Таким образом, вероятность того, что случайная выборка
численностью в 25 человек, выбранная из данной популяции, будет иметь среднее значение систолического давления выше 125 мм рт.ст. составит 0.6%.
Возможно также определение того, какая из выборочных
средних имеет настолько большое значение, что встречается только в 5% или меньше выборок. Из таблицы 9 видно,
что значение z, которое отделяет нижние 95% распределения от верхних 5%, равно 1.645. Соответствующая величина
систолического давления будет равна: µ + 1.645 ⋅ m (т.е.
популяционная средняя + 1.645 стандарных ошибок). Так
как популяционная средняя равна 120, a стандартная ошибка равна 2, то значение систолического давления составит:
120+(1.645х2), или 123.29 мм рт.ст.
z=
100
Возможно также определение интервалов, в пределах которых будут лежать 95% всех выборочных средних. Как и в
случае любого нормального распределения, 95% распределения выборочных средних будет лежать в пределах ± 2
СОС, т.е. в пределах z= ± 2.
Таким образом, 95% всех выборочных средних должны
лежать в пределах ± 2 СОС от популяционной средней. Как
видно из таблицы 8, точное z-значение, которое соответствует средним 95% нормального распределения, равно ±
1.96, а не ±2. Таким образом, точные границы составят 120±
(1.96х 2) = 116.08 и 123.92 мм рт.ст.
ДОВЕРИТЕЛЬНЫЕ ГРАНИЦЫ
Мы уже говорили о том, что кривая распределения средних случайных выборок является нормальной и, следовательно, к ней применимы все известные факты о нормальном распределении и z-значениях. Это означает, что подобно тому, как в случае нормального распределения величин
популяции 68% всех членов популяции будут иметь значения в пределах ± 1σ от средней, 95% - в пределах приблизительно ± 2 σ (или точнее ±1.96), а 99,7% - в пределах ± 3
σ, так и на кривой распределения выборочных средних 68%
всех выборочных средних будут лежать в пределах ± 1
стандартной ошибки от популяционной средней, 95% - в
пределах приблизительно ± 2 стандартных ошибок и, наконец, 99,7% - в пределах ± 3 стандартных ошибок.
Если 95% выборочных средних ( X ) лежат в пределах
приблизительно ± 2 стандартных ошибок от популяционной
средней (μ), то это значит, что и неизвестная популяционная
средняя, которая нас интересует, также будет лежать в этих
пределах. В то же время, если мы знаем, что 95% всех выборочных средних будут иметь значения в пределах указанного интервала, то мы также может утверждать, что на 95%
уверены в том, что истинная популяционная средняя лежит
101
в этом пределе. Разумеется, мы не можем делать такого утверждения со 100% уверенностью, так как возможно, что
мы могли бы отобрать выборку с очень необычными и нетипичными для данной популяции значениями. Но мы можем достигнуть большей степени уверенности посредством
вычисления предела, в котором могут располагаться 99.7%
всех выборочных средних (±3 стандартных ошибки). В этом
случае мы сможем сказать, что на 99.7% уверены в том, что
популяционная средняя лежит в этом пределе. Однако недостатком в этом случае является то, что границы средних
становятся более широкими и, следовательно, неопределенными.
Этот интервал в пределах ± приблизительно 2 или 3
стандартных ошибок известен под названием доверительных границ. В медицинских исследованиях желательно
быть более уверенными в достоверности полученных выводов, поэтому, как правило, доверительные границы берутся,
равными 95% или 99.7%.
Определение доверительных границ является методом
статистического вывода, так как для оценки величины популяционной средней (μ) используется выборочная сре дняя
( X ).
Например, если исследователь хочет определить истинную величину систолического давления у большой популяции, будет непрактичным измерение систолического давления у каждого отдельного члена популяции. Вместо этого
он отберет из популяции выборку и измерит величину систолического давления только у членов выборки. Так как
выборка является действительно случайной, он может быть
на 95% уверен, что истинная средняя лежит в пределах ±
1.96 стандартных ошибок от выборочной средней. Например, если выборочная средняя равна 90 мм рт.ст., а m = 3,
исследователь может быть на 95% быть уверенным, что истинная популяционная средняя лежит в пределах ± 1.96
стандартных ошибок от 90, т.е. 90 ± (1.96 х 3), или в интервале от 84.12 до 95.88 мм рт.ст..
102
Таким образом доверительные границы (ДГ) равны выборочной средней ± z-значение, найденное в таблице, умноженное на величину стандартной ошибки:
ДГ = X ± z ⋅ m
Разница между верхней и нижней доверительной границами называется доверительным интервалом (ДИ).
Понятно, что исследователи стремятся получить по возможности более узкий доверительный интервал. Как видно
из формулы для вычисления ДИ, для того, чтобы ДИ был
уже (для данного доверительного уровня, например 95%),
стандартная ошибка должна быть поменьше. Как известно,
стандартная ошибка вычисляется по формуле:
m=
σ
.
n
Так как σ – это популяционный параметр, величина которого исследователем не может быть изменена, единственным способом уменьшения стандартной ошибки является
увеличение размера выборки (n). Таким образом, еще раз
можно получить математическое обоснование того, почему
исследованиям, проводимым на больших выборках, можно
доверять больше, чем исследованиям с использованием малых выборок. В соответствии с формулой для вычисления
стандартной ошибки, ее величина обратно пропорциональна корню квадратному из размера выборки. Таким образом,
ширина доверительного интервала уменьшится пропорционально корню квадратному из размера выборки.
Уже говорилось о том, что чем шире ДИ, тем менее точной является оценка популяционной средней. По определению, точность – это степень, в которой величина (например,
оценка популяционной средней) защищена от случайной
вариации.
Так как ширина ДИ уменьшается пропорционально корню квадратному из объема выборки, точность пропорциональна корню квадратному из объема выборки. Так, для то103
го, чтобы увеличить точность оценки вдвое, объем выборки
должен быть увеличен в 4 раза. Таким образом, увеличение
точности исследования требует несоразмерного увеличения
объема выборки, и, следовательно, исследование с высокой
точностью требует больших затрат денег и времени.
Точность следует отличать от состоятельности, которая
показывает степень, в которой оценка защищена от систематической ошибки.
Хорошим способом демонстрации разницы между точностью и состоятельностью является пример метания дротиков в центр мишени (рис. 24). На рисунке 24 A не наблюдается какой-либо тенденции к промахам дротиков в одном
направлении, а значит нет систематической ошибки. Однако, имеется значительная случайная вариация, так как дротики не собраны в кучу. Следовательно, метание дротиков в
данном случае является неточным, но состоятельным.
Рисунок 24. Четыре варианта метания дротиков в мишень
A
B
C
D
На рисунке 24 B дротики также не попали в центр мишени, но все они собраны в одну кучу, в левой верхней части
мишени. В этом случае метание дротиков является «пристрастным» (имеется тенденция к попаданию в левую часть
мишени), однако нет значительной вариации, так как все
дротики попали в одну кучу, и, следовательно, метание отличается точностью.
104
На рисунке 24 C дротики не только разбросаны, но и
имеется систематическая ошибка в одном направлении. Такое метание является неточным и несостоятельным.
На рисунке 24 D показан идеальный вариант метания
дротиков, когда все дротики попадают в центр мишени. Такое метание характеризуется высокой точностью и состоятельностью.
Рисунок 25. Четыре гипотетических распределения выборочных средних
Рисунок 25 показывает тот же принцип на примере четырех гипотетических распределений выборочных средних. О
точности полученных результатов можно судить по степени
узости каждой кривой, а о состоятельности - по расстоянию
между средней случайного выборочного распределения
средних и истинной популяционной средней (μ).
Распределение А на рисунке 25 показывает очень расширенное распределение выборочных средних и, таким образом, обеспечивает неточную оценку истинной популяционной средней. В то же время его средняя совпадает с истинной популяционной средней и, следовательно, обеспечивает
состоятельную оценку истинной популяционной средней.
Иными словами, оценка является беспристрастной, но она
подвержена значительной случайной вариации. Это тот ре105
зультат, который можно получить в случае, если выборки
являются случайными, но маленькими.
Рапределение B характеризуется узостью, которая обеспечивает точную оценку истинной популяционной средней.
Вследствие небольшого значения стандартной ошибки ширина доверительного интервала будет узкой. Однако, средняя этого распределения лежит на значительном расстоянии
от истинной популяционной средней и, следовательно, будет обеспечивать «пристрастную» оценку истинной популяционной средней. Такой результат может быть получен
при большой, но не случайной выборке.
Распределение С является очень разбросанным (с большой величиной стандартной ошибки) и, следовательно, будет обеспечивать неточную оценку истинной популяционной средней. Его средняя лежит на значительном расстоянии от истинной популяционной средней, и, значит, ее
оценка является также «пристрастной». Такой результат
может быть в случае, если отобранные выборки будут маленькими и не случайными.
Распределение D является узким и, следовательно, точным. Его средняя лежит в той же точке, что и истинная популяционная средняя и, следовательно, оно является и состоятельным. Это распределение является идеальным и может быть получено из случайных достаточно больших выборок.
Таким образом, для достижения максимальной точности
и состоятельности результатов в статистических выводах
выборки должны быть большими и, действительно, случайными.
t-значения
В рассмотренном выше примере для определения доверительных границ использовались z-значения, которые показывают на сколько стандартных ошибок отдалена выборочная средняя от популяционной средней. Однако, для оп106
ределения стандартной ошибки необходимо знать величину
популяционного стандартного отклонения (σ):
m=
σ
.
n
На практике же, как правило, значение популяционного
стандартного отклонения исследователям неизвестно, единственное что им бывает известно, это статистические данные, полученные из выборки: выборочная средняя и выборочное стандартное отклонение, которое используется для
вычисления так называемой, оценочной стандартной ошибки (чаще она называется просто стандартной ошибкой).
Формула для расчета оценочной стандартной ошибки
следующая:
CO
m=
n
где СО – стандартное отклонение, полученное из выборки, n – размер выборки.
При малых выборках (при числе наблюдений меньше 30)
в знаменателе вышеуказанной формулы будет n – 1.
В случаях, когда популяционное стандартное отклонение
неизвестно (а это бывает в большинстве случаев), для выводов о средних, для определения доверительных границ
средних вместо z-значения используется значение t, иногда
называемое также t Стьюдента.
Подобно таблице z-значений, позволяющей определить
проценты нормального распределения, которые лежат выше
или ниже определенной величины z, существуют таблица tзначений, которая обеспечивает такой же информацией для
любого значения t. Однако между таблицами существует
разница. В то время как значение z для любой доли распределения остается постоянным (например, z-значение, равное ±1.96 всегда соответствует средним 95% распределения), значение t варьирует в зависимости от величины выборки. В случае больших выборок (n> 100) значения z и t
107
одинаковы. С уменьшением объема выборки их значения
становятся все более отличными друг от друга.
В таблице t-значений (таблица 10) показаны значения t,
соответствующие различным площадям под кривой нормального распределения для различных объемов выборок. В
крайнем левом столбце таблицы указаны объемы выборок, а
точнее, значения степеней свободы, которые при определении доверительных границ определяются как n- 1. Например, в случае если выборка включает 26 человек, значение t, соответствующее средним 95% распределения, будет
равно 2.060.
Таблица 10. Площадь под кривой нормального распределения ( t-значения)
Площадь в обоих
хвостах
Площадь в одном
хвосте
Степень свободы
0.1
0.05
0.01
0.05
0.025
0.005
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
25
50
100
∞
6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833
1.812
1.796
1.782
1.771
1.761
1.753
1.708
1.676
1.660
1.645
12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
2.228
2.201
2.179
2.160
2.145
2.131
2.060
2.009
1.984
1.960
63.657
9.925
5.841
4.604
4.032
3.707
3.499
3.355
3.250
3.169
3.106
3.055
3.012
2.977
2.947
2.787
2.678
2.626
2.576
108
В качестве примера демонстрации использования tзначений рассмотрим ранее рассмотренную задачу оценки
истинного популяционного систолического давления (с
достоверностью 95%) на основе выборочной средней. На
этот раз мы не будем делать нереальных предположений о
наличии информации о популяционной стандарной ошибке.
Предположим, что была отобрана выборка численностью
в 26 человек. Выборочное среднее значение систолического
давления в группе составило 90 мм рт.ст., а стандартное отклонение СО = 3 мм.рт.ст. Значит, оценочная стандартная
ошибка составит:
3
m=
= 0.6
26 − 1
Для выборки численностью в 26 человек значение степени свободы будет равно 25. Это означает, что величину t,
соответствующую срединным 95% распределения, следует
искать на строке со степенью свободы, равной 25. Это величина 2.060, которая не очень отличается от величины z = 2,
соответствующей 95% распределения. Подставив все найденные значения в форму для определения доверительного
интервала, получим:
95% ДИ = 90± 2.060x0.6
95% ДИ (88.8; 91.2).
Таким образом, на основе полученных результатов с вероятностью безошибочного прогноза 95%, можно заключить, что истинная средняя будет лежать в интервале от
88.8 до 91.2 мм рт.ст.
Средняя арифметическая не является единственным статистическим показателем, для которого можно подсчитать
доверительный интервал. Доверительные интервалы часто
вычисляются для интенсивных и экстенсивных показателей,
для показателя отношения шансов и других показателей в
тех случаях, когда нужно сделать выводы обо всей популяции, исходя из характеристик выборки. Интерпретация доверительного интервала остается той же: чем уже интервал,
109
тем точнее наша оценка величины данной характеристики в
популяции и тем больше уверенность в том, что полученное
в исследовании значение характеристики будет близко к
значению популяционной характеристики.
Метод построения доверительного интервала для популяционного показателя будет обсужден позже.
ПРОВЕРКА ГИПОТЕЗ
Определение доверительных границ, при котором статистические данные (например, выборочная средняя) с определенной степенью достоверности используются для оценки параметра (популяционной средней), являются одним из
важных методов статистических выводов. Однако более
важным и распространенным методом статистического анализа является проверка гипотезы.
Основными этапами проверки гипотезы о средней являются следующие:
1. Определение альтернативной и нулевой гипотез (HА и
HO).
2. Определение уровня значимости, α.
3. Вычисление значения t, которое соответствует выборочной средней (tвыч.).
4. Определение критических значений.
5. Сравнение вычисленного и критического значений t и
принятие или отклонение нулевой гипотезы.
Рассмотрим следующий пример. Допустим, что средний
уровень холестерина в крови у мужского населения Армении в возрастной группе от 20 до 74 лет составляет 211
мг/дл. Мы можем утверждать, что у части населения страны, страдающей гипертензией (субпопуляции), средний
уровень холестерина не может быть также равным 211
мг/дл. Это утверждение является гипотезой, которую нужно
проверить и называется она альтернативной. Обозначается
альтернативная гипотеза обычно как HА. Таким образом, в
110
данном случае альтернативная гипотеза будет утверждать,
что HА: μ ≠ 211 мг/дл.
Альтернативной гипотезе всегда противоречит, так называемая нулевая гипотеза, которая обозначается Hо. Называется она нулевой, потому что в большинстве исследований указывает на отсутствие различий между сравниваемыми популяциями. В нашем примере нулевая гипотеза будет
утверждать, что средняя холестерина у части населения,
страдающего гипертензией,равна популяционной средней,
или: Hо: μ = μо = 211 мг/дл.
Одним из способов проверки гипотез может служить определение уровня холестерина у каждого человека, страдающего гипертензией и вычисление субпопуляционной
средней, что требует значительных затрат времени и денег.
Однако, будет более практичным, если мы отберем из рассматриваемой субпопуляции выборку, вычислим выборочную среднюю и затем на основании данных выборочного
исследования сделаем статистический вывод о всей субпопуляции.
Предположим, мы отобрали из всей субпопуляции больных, страдающих гипертензией, выборку в 12 человек и вычислили выборочную среднюю. Далее мы должны сравнить
полученную выборочную среднюю с популяционной средней μ о. Если даже окажется, что нулевая гипотеза неправильна и правдива альтернативная, т.е.μ ≠
211 мг/дл, мы
зададимся вопросом, является ли эта разница между выборочной и популяционной средними закономерной или случайной? Мы уже обсуждали, что вследствие ошибки выборочного исследования величина выборочной средней всегда
будет иметь отклонение от величины популяционной средней (в данном случае субпопуляционной). Например, если
выборочная средняя уровня холестерина не равна 211 мг/дл,
то мы не можем сразу заключить, что нулевая гипотеза неправильна, так как величина ошибки выборочного исследования предусматривает возможность отбора из субпопуляции выборки со значением средней, равной 211 мг/дл. Для
111
того, чтобы сделать вывод о правдивости или неправдивости нулевой гипотезы, мы должны решить. при каком значении разница между выборочной средней и величиной,
равной 211, является не случайной, а закономерной.
Это значение должно быть определено до отбора выборки и сбора данных. Вместо определения этой величины в
виде уровня холестерина, она определяется в виде вероятности. Уровень вероятности, при котором нулевая гипотеза
считается неправильной, называется критерием, или уровнем значимости, и обозначается символом α.
Как показывает распределение выборочных средних, выборочная средняя не может очень сильно отличаться от величины популяционной средней (в нашем случае субпопуляционной средней). Если же она очень сильно отличается и
лежит ближе к одному из хвостов кривой, то это вызывает
подозрение, что выборка была отобрана не из популяции,
указанной в нулевой гипотезе, а из другой популяции.
Если вероятность получения выборочной средней, которая отличалась бы намного от вычисленной величины,
очень мала, нулевая гипотеза отвергается. Но что мы понимаем под очень маленькой вероятностью? По договоренности, вероятность эта должна составлять меньше 5%, или
0.05. Таким образом, нулевая гипотеза должна быть отвергнута в случае, когда вероятность того, что выборка могла
быть из популяции с величиной средней, равной μо, меньше
5%. Это подразумевает, что в 5% случаях, отвергая нулевую
гипотезу, мы можем совершать ошибку. Т.е, повторяя многократно тест на достоверность, в 5 случаях из 100 мы можем совершить ошибку. Иногда, для большей достоверности сделанных выводов, вероятность берется равной 0.01. В
этом случае вероятность допущения ошибки составляет 1 из
100 случаев.
Проверка статистической гипотезы может быть сравнена
с уголовным судопроизводством. Человек, признанный судом виновным, в действительности может быть или на самом деле виновным, или невиновным. После представления
112
фактов, имеющих отношение к данному случаю, суд признает подсудимого виновным или невиновным. Если подсудимый невиновен, и суд выносит решение о его невиновности, выносится правильный вердикт. Вердикт считается
также правильным, если подсудимый виновен и осуждается
за совершение преступления.
Аналогично этому, истинная популяционная средняя
равна или не равна μ о. Мы предполагаем, что нулевая гипотеза (Hо: μ = μо) правдива и рассматриваем свидетельства,
представленные в виде выборки, размером n. На основе наших результатов нулевая гипотеза отвергается или не отвергается.
В этом случае мы также имеем две ситуации, при которых сделанный вывод является правильным: 1) когда популяционная средняя равна μ о, и нулевая гипотеза не отвергается; 2) когда популяционная средняя не равна μ о, и нулевая
гипотеза опровергается. Аналогично судебной системе,
процесс проверки гипотезы тоже не является совершенным.
В этом случае также могут быть совершены ошибки двух
видов. Мы можем или опровергнуть нулевую гипотезу, в то
время как на самом деле μ = μо, или принять нулевую гипотезу, в то время как μ ≠ μ о. Более подробно об этих ошибках
мы поговорим позже.
Вероятность получения средней, которая намного бы отличалась от той, которая была получена при условии, что
нулевая гипотеза правильна, называется p-величиной теста.
Для решения вопроса о том, должна ли быть нулевая гипотеза отвергнута, вычисленная величина p сравнивается с заранее определенной величиной α. Если величина p оказывается меньше величины α, нулевая гипотеза отвергается, если больше величиныα – нулевая гипотеза принимается. В
дополнение к результатам исследования в литературе обычно приводится также и полученная величина p.
Достижение статистически значимой величины p≤0.05
свидетельствует лишь о том, что полученный результат это
не простая случайность, а статистическая закономерность.
113
Вероятность того, что полученный результат – случайность,
составляет 5% или меньше. Необязательно, чтобы это значило, что результат достоверен в обычном понимании, т.е.
заслуживает внимания или имеет смысл. Это также не означает, что он обязательно клинически значим. Статистически
значимо то, что, действительно, существует с высокой вероятностью. Клинически значимо то, что своими размерами
(например, величиной снижения летальности) убеждает
врача в необходимости изменить свою практику в пользу
нового образа действий.
Расчет значения t
Значение t, соответствующее выборочной средней (tвыч.),
показывает на сколько стандартных ошибок вычисленная
выборочная средняя лежит выше или ниже гипотетической
популяционной средней, и вычисляется по формуле:
X −µ
t=
m
Рассмотрим следующий пример. Предположим, из популяции младенцев была произведена выборка в 10 детей, которые получали антациды, содержащие алюминий. Популяционная средняя и стандартное отклонение для уровня
алюминия в плазме крови детей неизвестны. Однако, мы
знаем, что выборочная средняя уровня алюминия в плазме
крови составила 37.20μг/л,
а стандартное отклонение –
7.13μг/л. Средний уровень алюминия в плазме крови у популяции детей, не получавших антациды, составляет 4.13
μг/л. Могли ли данные нашей выборки быть полученными
из популяции со значением средней, равной 4.13μг/л?
Для ответа на этот вопрос мы проводим тест на проверку
гипотезы. Нулевая гипотеза в данном случае будет утверждать, что Hо: μ = 4.13г/л,
μ а альтернативная:
HА: μ≠
4.13μг/л. В качестве уровня значимости нами будет определена величина α = 0.05. Так как мы не знаем значения поп у114
ляционного стандартного отклонения, мы используем не zтест, а t-тест:
t=
X − µ 37.20 − 4.13
=
= 14.67
m
7.13 / 10
Таким образом, выборочная средняя (37.20) на 14.7 стандартных ошибок лежит выше гипотетической популяционной средней (4.13).
Определение критических значений
Следующим этапом проверки гипотезы является определение критических значений. Мы уже обсуждали, что при
очень большом числе случайных выборок, отобранных из
определенной популяции, их средние формируют нормальное распределение- распределение случайных выборочных
средних, которое имеет среднее, равное величине популяционной средней. Говоря о проверке нулевой гипотезы, мы
также сказали о том, что, по договоренности, нулевая гипотеза отвергается в том случае, когда, вероятность получения
выборочной средней, значительно отличающейся от вычисленной величины, составляет меньше 5%, или 0.05.
Это означает, что если выборочная средняя оказывается в
области, в пределах которой будут находиться 95% всех
средних случайных выборок, нулевая гипотеза принимается. Эта область называется областью принятия. Если выборочная средняя лежит за пределами указанной области, в
области непринятия, то нулевая гипотеза отвергается и принимается альтернативная гипотеза.
Пределы этой области называются критическими значениями и определяются с помощью таблицы t значений.
В рассматриваемом нами примере численность выборки
равна 10, следовательно, степень свободы будет равна 9 (n1). Как видно из таблицы t –значений, при значении степени
свободы, равной 9, значение t, которое отделяет 95% об115
ласть принятия от двух 2.5% областей непринятия, равно ±
2.262. Это критические значения и обычно обозначаются
символом tкрит. = ± 2.262.
Рисунок 26 показывает распределение средних случайных выборок для нашей гипотетической популяции со
средней (μ), равной 4.13. На рисунке показана также о бласть непринятия и принятия, отмеченная критическими
значениями t, которые были определены. Средняя гипотетической популяции часто обозначается в виде μгипот.
Область
Рисунок
26. Распределение выборочных средних гипотепринятия
тической популяции со значением средней, равной 4.13.
(95%)
μo= 4.13
Область
непринятия
(2.5%)
Область
непринятия
(2.5%)
tвыч. = + 14.67
tкрит = - 2.262
tкрит = + 2.262
Сравнение вычисленного значения t с его критическими значениями и принятие или отвержение нулевой гипотезы
Если вычисленное значение t лежит за пределами критических значений, то это означает, что оно лежит в одной из
двух областей непринятия.
Рисунок 26 показывает, что в этом примере значение t
лежит в пределах верхней области непринятия. Таким образом, нулевая гипотеза будет отвергнута и принята альтернативная гипотеза.
116
Объяснение этому заключается в следующем. Выборочная средняя настолько отличается от гипотетической популяционной средней, что вероятность того, что она будет получена, если нулевая гипотеза правильна, равна 0.05 (или
меньше 0.05). Можно сказать, что разница между выборочной средней и гипотетической популяционной средней является статистически значимой, и нулевая гипотеза отвергнута на уровне 0.05. Обычно об этом говорится в следующей форме: “Гипотеза о том, что средний уровень алюминия в плазме крови младенцев, получавших антациды, содержащие алюминий, составляет 14.3μг/л., отвергается, t =
14.67, df = 9, p≤ 0.05”.
Если бы вычисленное значение t лежало между двумя
критическими значениями в области принятия, то нулевая
гипотеза была бы принята. В таком случае можно было бы
заключить, что разница между выборочной и гипотетической популяционной средней статистически не значима
(p>0.05).
Два типа ошибок
Никакой статистический критерий не дает абсолютной,
100% уверенности в том, что выводы не содержат ошибок.
Напротив, все статистические критерии позволяют утверждать что-либо лишь с некоторой вероятностью ошибки
вывода.
Во время проверки гипотез может возникнуть два типа
ошибок.
Достижение статистически значимой величины p≤0.05
означает, что исследователь может быть уверенным на 95%,
что результат получен не случайно. Хотя нулевая гипотеза
отвергается, имеется 5% шансов, что она правильна.
Отклонение нулевой гипотезы в случае, если она правильна,
называется ошибкой первого типа (Type I error). Вероятность допущения ошибки первого типа, фактически, является величиной p. Так как эта величина относится к крите117
Результат
теста
рию α, она известна также под названием альфа ошибки (α
error). По договоренности, вероятность альфа ошибки
должна составлять меньше 5%, или 0.05.
Противоположной ошибке первого типа является ошибка второго типа (Type II error), которая заключается в принятии нулевой гипотезы, тогда как, на самом деле, она неправильна. Эта величина также называется бетта ошибкой
(β error). Обычно приемлемой считается вероятность ошибки второго типа не выше 0.2.
В нижеприведенной таблице показаны четыре возможных варианта решений, которые могут быть сделаны на основе статистических тестов.
Принятие Ho
Отклонение Ho
Действительная ситуация
Ho правильна
Ho неправильна
Нет ошибки
Ошибка II типа
(β ошибка)
Ошибка I типа
Нет ошибки
(α ошибка)
Выбор подходящего уровня для критерия
α зависит от
соответствующих последствий ошибок I или II рода. Если
исследователь желает с большей уверенностью утверждать,
что полученные результаты статистически значимы, то он
волен устанавливать очень высокий порог статистической
значимости, например, α = 0.01 или даже α = 0.001. Но в т аком случае увеличивается вероятность ошибки второго типа.
Статистическая чувствительность
Итак, для уменьшения возможности ошибки I типа можно установить более высокий порог статистической значимости, α. Как же уменьшить возможность возновения
ошибки II типа? Оказывается, сделать это не так просто. По
определению, ошибка II типа включает принятие непра118
вильной нулевой гипотезы, поэтому способность статистического теста избежать возникновения ошибки II типа зависит от его способности определять неправильность нулевой
гипотезы.
Это способность известна под названием статистической чувствительности теста и равна 1- β. Таким образом,
статистическая чувствительность (power) – это вероятность
отклонения нулевой гипотезы, когда она, действительно,
ложна. По договоренности, статистическая чувствительность теста в исследовании должна быть равна 0.8 (т.е. β =
0.2). Иными словами, исследование, в котором вероятность
определения ложной нулевой гипотезы меньше 80%, считается неприемлемым.
Наиболее практичным и важным способом увеличения
статистической чувствительности теста является увеличение объема выборки. Это приведет к уменьшению величины стандартной ошибки и, следовательно, к увеличению
вычисленного значения t. Таким образом, при выборках
больших размеров вероятность отвержения нулевой гипотезы больше, чем при небольших объемах выборки.
К увеличению статистической чувствительности теста
ведет также увеличение значенияα. Это ведет к уменьш ению критических значений t и, таким образом, к увеличению площади непринятия, и к увеличению вероятности отклонения нулевой гипотезы.
Кроме того, статистическая чувствительность теста зависит от величины разницы между выборочной средней и гипотетической средней, а также величины вариабельности
переменной в выборке.
Понятно, что чем больше разница между величинами
выборочной и популяционной средней, тем больше величина критерия t, а, значит, и больше будет статистическая чувствительность теста.
Чем меньше величина вариабельности переменной, т. е.
чем меньше величина стандартного отклонения, тем меньше величина стандартной ошибки выборки. При уменьше119
нии величины стандартной ошибки увеличивается значение
критерия t и статистическая чувствительность.
Односторонние статистические критерии
Всегда до проверки гипотезы, еще до отбора случайной
выборки, бывает необходимо определить, должны ли мы
использовать двусторонние или односторонние статистические критерии.
В рассмотренном нами примере проверки гипотезы о
возможности одинаковых средних уровней алюминия в
плазме крови младенцев, получавших алюминийсодержащие антациды и младенцев, не получавших антациды, нами
был использован двусторонний статистический критерий
или, так называемый двусторонний тест (two-tailed, twosided test). В данном примере альтернативная гипотеза была
ненаправленной, она просто утверждала, что популяционная средняя уровня алюминия в плазме крови младенцев,
получавших алюминийсодержащие антациды не равна популяционной средней той же переменной у младенцев, не
получавших антациды (4.13μг/л), не уточняя является ли
популяционная средняя выше или ниже этой величины. Таким образом, как показано на рисунке 26, имелись две области непринятия, одна выше гипотетической популяционной средней, другая ниже.
Однако, вместо такого предположения мы могли сделать
более правдоподобное. Мы могли предположить, что популяционная средняя уровня алюминия в плазме крови младенцев, получавших алюминий содержащие антациды
должна быть как минимум 4.13
μг/л. Нулевая гипотеза в
этом случае будет утверждать, чтоμ ≤ 4.13, а альтернати вная гипотеза - что μ > 4.13. Альтернативная гипотеза в этом
случае является направленной, так как она уточняет, что
популяционная средняя лежит в определенном направлении
по отношению к нулевой гипотезе.
120
Рисунок 27. Области принятия и непринятия для одностороннего t-теста
μo= 4.13
Область
принятия
(95%)
Область
непринятия
(5%)
tвыч. = + 14.67
tкрит = + 1.833
В подобных ситуациях на кривой распределения выборочных средних уже не будет двух областей непринятия.
Как показывает рисунок 27, в этом случае имеется только
одна область непринятия. Если величина α остается равной
0.05, область принятия (область, в которой лежат 95% всех
возможных выборочных средних, отобранных из гипотетической популяции) расширяется кверху с самого нижнего
конца распределения, оставляя только одну область непринятия – верхние 5% кривой. Таким образом, область непринятия в этом случае лежит только в одном хвосте распределения, а не в обоих хвостах.
Шаги по проверке гипотезы по критерию t при направленной проверке те же, за исключением того, что критическое значение t в этом случае другое. Критическое значение
в этом случае отделяет верхние 5% распределения от нижних 95%, вместо деления средних 95% от двух хвостов, каждый из которых составляет 2.5%. Соответствующий столбик в таблице 10 показывает, что критическое значение t в
этом случае (для той же степени свободы = 9) равно + 1.833,
а не ± 2.262.
121
Как видно на рисунке 27, это новое критическое значение
связано только с одним хвостом распределения. Использование этой величины включает, таким образом, выполнение
одностороннего статистического теста (one-tailed, onesided test) вследствие того, что альтернативная гипотеза является направленной.
В нашем примере вычисленная величина t, как и в случае
выполнения двустороннего теста, лежит в области непринятия. Однако, нередко при выполнении для одних и тех же
данных двустороннего теста вычисленный критерий попадает в область принятия, тогда как при выполнении одностороннего теста он оказывается в области непринятия.
Иными словами, нередко статистически незначимые результаты в двустороннем тесте становятся статистически
значимыми при выполнении одностороннего теста. Поэтому односторонние тесты должны использоваться как редкое
исключение в продемонстрированных случаях. Даже если
исследователь убежден, что разница может наблюдаться
только в одном направлении, в некоторых случаях это не
дает ему права использовать односторонний статистический
критерий. Например, при испытании нового лекарственного
препарата, даже если исследователь убежден, что препарат
окажет благоприятное воздействие на состояние здоровья
больного, это не позволяет ему использовать односторонний тест. Его использование означало бы, что исследователь игнорирует способность препарата ухудшать состояние больных, что не допускается в медицинских исследованиях.
СРАВНЕНИЕ ДВУХ СРЕДНИХ
В предыдущем разделе мы рассмотрели возможность
сравнения средней одной популяции с какой-то известной
величиной μо. Однако, гораздо чаще задачей биомедицинских исследований является сравнение двух разных популяционных средних, которые не известны. При этом исследо122
вателя интересует вопрос, является ли различие между двумя популяциями случайным или достоверным.
Для ответа на этот вопрос также используется проверка
гипотезы, которая во многих отношениях очень схожа с
проверкой гипотезы об одной популяционной средней.
Основными этапами проверки гипотезы и в этом случае
являются: формулировка нулевой и альтернативной гипотез, вычисление статистического критерия t (z), определение критических значений, сравнение вычисленного и критического значений t (z) и принятие или отклонение нулевой гипотезы.
Нулевая гипотеза в этом случае будет утверждать, что
обе группы были отобраны из популяции с одной и той же
средней, иными словами, обе выборки, в сущности, взяты из
одной и той же популяции и, следовательно, между ними
нет никакой разницы. Альтернативная гипотеза будет утверждать, что две популяционные средние различны:
Ho: μ1 = μ2
Ho: μ1 ≠ μ.
Очень широко проверка гипотезы о двух средних используется при проведении клинических испытаний, например, при сравнении средних экспериментальной и контрольной групп при сравнении эффективности двух различных лекарственных препаратов, двух схем лечения и т.д.
Обсуждая дизайны исследований с использованием контрольной группы, мы упомянули, что она может быть разной. Если включение пациента в нее не обусловлено включением другого пациента в опытную группу, то это случай
независимых выборок (independent samples). Если в экспериментальной и контрольной группах используются одни и
те же люди, но в разное время (например, до получения
курса лечения и после), то это связанные выборки (paired
samples). Если паценту экспериментальной группы подбирается пара равного возраста и пола в контрольной группе,
то это тоже вариант связанных выборок. (matched pairs).
Важно, что статистические критерии, предназначенные для
123
связанных выборок, не должны использоваться для независимых выборок и наоборот. В данном пособии приведен
только метод проверки гипотезы двух средних в случае несвязанных выборок.
Сравнение двух средних в случае несвязанных выборок
Рассмотрим следующий пример. 50 больных с гипертензией были поровну разбиты на две группы: экспериментальную и контрольную. В экспериментальной группе
больные получали диуретик в комбинации с другими антигипертензивными препаратами, в то время как в контрольной группе они получали только диуретик. После одного
месяца лечения в экспериментальной и контрольной группах были вычислены значения среднего систолического
давления и стандартные отклонения, которые составили:
X экс = 93 ммрт.ст., СОэкс. = 20.2
X контр. = 117 ммрт.ст., СО = 21.6
Начинаем проверку гипотезы с формулирования нулевой и альтернативных гипотез. Нулевая гипотеза будет утверждать, что никакой связи между схемой лечения и уровнем артериального давления нет и, следовательно, в обеих
группах средний уровень давления больных после полученного лечения должен быть одинаков. Альтернативная гипотеза будет утверждать обратное: между указанными переменными существует связь, и, следовательно, средние значения артериального давления у больных двух сравниваемых групп будут различны.
Следующим этапом является вычисление соответствующего статистического критерия.
При сравнении двух средних чаще всего вычисляется tкритерий (t-тест), так как обычно популяционные дисперсии бывают не известны. В очень редких случаях, при наличии сведений о величинах дисперсии переменной в двух
сравниваемых популяциях, может использоваться z-тест.
124
Формула для вычисления t-критерия в случае несвязанных выборок следующая:
t=
( X1 − X 2 )
=
( X1 − X 2 )
,
2
2
s1
s2
+
n1 n2
где X 1 и X 2 - средние величины артериального давления
у больных экспериментальной и контрольной групп после
лечения, s12 и s22 – соответственно, их дисперсии, n1 и n2 численность больных в группах.
Подставив все данные в формулу, мы получим:
117 − 93
t=
= 4.05.
470 409
−
25
25
Указанная формула для вычисления t-критерия используется во всех тех случаях, когда при сравнении двух средних делается предположение о неравенстве двух популяционных дисперсий. В случае, когда допускается предположение об их равенстве, формула для вычисления t-критерия
включает величину суммарной дисперсии (pooled variance)
переменной в обеих сравниваемых популяциях.
На следующем этапе определяются критические значения t. Для пользования таблицей t-значений нам и в этом
случае необходимо вычислить значение степени свободы.
Формула для ее вычисления в этом случае равна df= n1 + n2
– 2, т.е. 25+25 - 2 = 48.
В таблице t–значений мы не находим степени свободы,
равной 48, но есть близкое значение df = 50. Как видно из
таблицы t–значений, при выполнении двустороннего теста
значению степени свободы, равному 50 соответствует критическое значение t, равное ± 2.009. Вычисленная нами величина t(4.05) больше критической, и, значит, лежит в пределах области непринятия.
Таким образом, нулевая гипотеза о том, что средние
уровни артериального давления у больных в двух сравни125
m1 + m2
2
2
ваемых группах одинаковы, должна быть отвергнута и принята альтернативная гипотеза.
Для проверки нулевой гипотезы могут использоваться
три метода. Один из них – это уже обсужденный метод проверки гипотезы по определению критических значений и
сравнению вычисленной величины tвыч. с табличной tкрит.
Кроме того, проверка нулевой гипотезы может проводиться посредством вычисления величины p, соответствующей величине tвыч.. Например, в рассмотренном нами
примере величина tвыч. оказалась равной 4.05. При степени
свободы, равной приблизительно 50, и выполнении двустороннего теста, вычисленной величине соответствует значение p < 0.01, что меньше допустимого p≤ 0.05. Таким образом, полученный результат совпадает с результатом сравнения по критическим значениям.
Третьим методом проверки гипотезы является построение доверительных границ для разности между популяционными средними. На основе этого метода нулевая гипотеза
должна быть отклонена в случае, если рассчитанный доверительный интервал различия между мопуляционными
средними не включает 0.
ДИСПЕРСИОННЫЙ АНАЛИЗ
Нередко задачей биомедицинских исследований является
сравнение более чем двух групп, например, сравнение результатов лечения трех групп пациентов, получавших лечение по различным схемам. Если каждая из сравниваемых
групп включает пациентов молодого и пожилого возраста,
исследователь может также провести сравнение между возрастными группами, и в итоге получит 6 сравниваемых
групп, три группы с различными схемами лечения с двумя
возрастными группами в каждой из них. Нулевая гипотеза в
этом случае будет утверждать, что:
Ho: μ1= μ2=μ3=μ4=μ5=μ6.
126
Теоретически эта гипотеза может быть проверена с использованием множественного t-теста. Однако, этот метод
имеет ряд недостатков. Во-первых, он требует больших затрат времени, так как включает проведение 15 отдельных tтестов. Кроме того, статистическая чувствительность каждого теста будет сравнительно низкой, а вероятность возникновения ошибки I типа будет высокой.
К счастью, имеется статистический метод, который преодолевает все эти проблемы. Это - дисперсионный анализ
(ANOVA, аббревиатура от Anlysis of Variance), который в
настоящее время используется достаточно часто. В сущности, рассмотренный нами t-тест является частным случаем
дисперсионного анализа, позволяющим выявить различия
только между двумя группами. Дисперсионный анализ – это
более общий случай исследования различий, когда возможно, сравнение более чем двух групп. В случае простого
сравнения двух групп результат применения дисперсионного анализа совпадает с результатом сравнения по tкритерию.
Вычисления, лежащие в основе дисперсионного анализа
достаточно длинны и не входят в данный курс. Однако,
вкратце суть дисперсии можно свести к следующему. Дисперсия характеризует разброс, или вариабельность, значений переменной. В любой совокупности результатов исследования, например, в результатах, полученных от использования трех различных схем лечения у молодых и пожилых
пациентов, обсужденных ранее, будет иметь место вариабельность изучаемой переменной. Это общая вариабельность переменной обусловлена двумя компонентами. Вопервых, она обусловлена вариабельностью, возникающей
вследствие известной разницы между группами (межгрупповая вариабельность), в нашем примере, разницей между
различными схемами лечения, а также разницей между возрастными группами. Вторым компонентом, обусловливающим общую вариабельность переменной в результатах исследования, является обычная вариабельность изучаемой
127
переменной в пределах каждой группы (внутригрупповая
вариабельность), возникающая вследствие индивидуального
различия между пациентами, ошибки выборочного исследования и т.д.
Дисперсионный анализ дает возможность определить,
является ли выявленная в результатах исследования общая
вариабельность в значительной степени обусловленной
изучаемым различием между группами. Иными словами,
дисперсионный анализ позволяет ответить на вопрос, принадлежат ли сравниваемые группы к одной и той же популяции или они отобраны из различных популяций. Если все
выборки принадлежат одной и той же популяции, то межгрупповая вариабельность должна быть не больше, чем вариабельность переменной внутри самих выборок. Если же
сравниваемые группы принадлежат разным популяциям и,
следовательно, между ними существует значительное различие, то дисперсия между различными группами должна
быть значительно больше, по сравнению с колебанием величины переменной в пределах отдельных групп.
Если исследование было проведено правильно, это различие между изучаемыми группами должно быть вследствие использования различных схем лечения или различия в
возрасте пациентов.
Таким образом, дисперсионный анализ позволяет определить является ли дисперсия выборочных средних относительно общей средней для всей совокупности данных достоверно большей, по сравнению с дисперсией переменной
относительно средней в пределах каждой выборки. Делается это посредством вычисления простого соотношения, называемого F-соотношением (F-ratio):
F=
межгрупповая дисперсия
внутригрупповая дисперсия
Однако, начинается статистический анализ, как всегда, с
формулирования нулевой и альтернативной гипотез. Нуле128
вая гипотеза будет утверждать, что между изучаемыми переменными, в нашем примере - между результатом лечения
и использованной схемой лечения, а также между результатом и возрастом пациентов, связи нет. Альтернативная гипотеза будет утверждать обратное.
На втором этапе вычисляется F-соотношение, показывающее отношение межгрупповой дисперсии к внутригрупповой.
Затем, как обычно, при проверке гипотезы определяются
критические значения для F. Полученная величина Fвыч.
сравнивается с критическим значением Fкрит., найденным в
таблице F-значений. Как и в случае t-теста, если вычисленное значение превышает табличное значение, соответствующее определенной величине
α, то нулевая гипотеза
должна быть отвергнута.
Таким образом, F-тест – это тест соотношения дисперсий, и он используется в дисперсионном анализе для выяснения, существует ли статистически значимое различие между изучаемыми группами. Иными словами, существуют
ли, кроме обычной внутригрупповой дисперсии переменной, значительные источники ее дисперсии в совокупности
данных.
F-тесты иногда используются отдельно от метода дисперсионного анализа для проверки гипотез о различии между дисперсиями переменной в различных группах. Например, может возникнуть необходимость сравнения дисперсии уровня гемоглобина в крови больных, получавших разные препараты против анемии.
Если многочисленные сравниваемые группы отличаются
друг от друга только по одной переменной, например, по
виду использованной схемы лечения, то используется одномерный дисперсионный анализ (One-way ANOVA).
Если же сравниваемые группы отличаются одновременно
по двум переменным, используется двухмерный дисперсионный анализ (Two-way ANOVA). Например, этот статистический метод анализа понадобится, если группы пациен129
тов отличаются не только по виду использованной схемы
лечения, но и по возрасту. В этом случае ANOVA покажет
не только то, имеется ли важный источник вариабельности
в результатах, но и то обусловлено ли это воздействием одной переменной, другой переменной или обеих переменных
вместе взятых. В случае установления факта воздействия
только одной из изучаемых переменных, говорят об основном эффекте. Eсли значительным является эффект от комбинированного воздействия двух переменных, то это эффект взаимодействия. Эффект взаимодействия возникает в
случаях, когда эффект обеих переменных, вместе взятых,
отличается от суммы их индивидуального воздействия.
При необходимости изучения различий между группами,
отличающимися по нескольким переменным, может быть
использован многофакторный дисперсионный анализ (Multifactor ANOVA).
СРАВНЕНИЕ ПОКАЗАТЕЛЕЙ
В предыдущих разделах мы обсуждали использование
методов статистических выводов для количественных переменных. Однако задачей биомедицинских исследований
может быть не только оценка достоверности полученных
выборочных средних или сравнение средних величин.
Очень часто в биомедицинских исследованиях приходится
иметь дело с качественными переменными и, соответственно, с необходимостью оценки характеризующих их выборочных показателей.
Например, мы можем быть заинтересованы в оценке
удельного веса пациентов, выживших в течение 5 лет с момента выявления у них рака легкого. В данном случае мы
имеем дело не с количественным, а с качественным признаком, измеряемым в шкале номиналов (выживание в течение
5-летнего периода).
Удельный вес выживших пациентов определяется как
обычный интенсивный показатель:
130
P = Явление х 100 (1000 и т.д.) ,
Среда
где явление - это число пациентов, выживших в течение
5-летнего периода, среда- это общее число изученных пациентов, у которых был диагностирован рак легких.
Разумеется, и в этом случае мы не станем изучать выживаемость всех больных, у которых был диагностирован рак
легких, а, как обычно, проведем выборочное исследование.
Следовательно, полученный показатель будет показывать
частоту встречаемости изучаемого явления в изученной выборке, а не во всей популяции интересующих нас больных.
Как обычно, при проведении выборочных исследований,
у нас возникнет ошибка выборочного исследования. Как и в
случае с выборочными средними, вследствие ошибки выборочного исследования выборочные показатели будут в определенной степени варьировать вокруг истинного популяционного показателя. Мера вариабельности выборочных
показателей называется стандартной ошибкой показателя и
обозначается символом СОП или буквой mp. Вычисляется
она по формуле:
p ⋅ (1 − p )
mp =
,
n
где p- показатель, полученный из выборочного исследования, показывающий удельный вес выживших пациентов,
(1-p) – это удельный вес пациентов, скончавшихся в течение
наблюдаемого периода времени, n – объем выборки.
Формула для построения доверительных границ для популяционного показателя очнь схожа с формулой, использованной нами для построения ДГ для популяционной
средней:
95% ДИ = p ± z ⋅ m
Интерпретация полученных результатов в этом случае
будет такой же, что и при построении доверительных границ для популяционной средней.
131
Задачей исследования может быть также сравнение двух
популяционных показателей. Как и в случае сравнения популяционных средних, в данном случае также используется
проверка гипотезы со всеми уже известными этапами:
1. Определение альтернативной и нулевой гипотез (HА и
HO).
2. Определение уровня значимости, α.
3. Вычисление значения z, которое соответствует выборочному показателю (pвыч.).
4. Определение критических значений.
5. Сравнение вычисленного и критического значений z и
принятие или отклонение нулевой гипотезы.
Нулевая и альтернативная гипотезы в этом случае записываются следующим образом: Ho: π1 = π2, HA: π1 ≠ π2, где –
π1 и π2 - это сравниваемые популяционные показатели.
Вместо t-теста в данном случае выполняется z-тест, т.е.
вычисляется критерий z по формуле:
p1 − p2
.
z=
p1 ⋅ (1 − p1 ) p2 (1 − p2 )
+
n1
n2
Затем, как обычно, при проверке гипотезы определяются
критические значения для z. Полученная величина zвыч.
сравнивается с критическим значением zкрит., найденным в
таблице z-значений. Если вычисленное значение превышает
табличное значение, соответствующее определенной величине α, то нулевая гипотеза отклоняется и принимается альтернативная.
НЕПАРАМЕТРИЧЕСКИЕ ТЕСТЫ
Обсужденные в предыдущих главах t-, z- и F тесты, объединяют под названием параметрических тестов, так как
они используются для проверки гипотез, относящихся к популяционным параметрам (к популяционной средней или
популяционной дисперсии). Кроме того, их гипотезы каса132
ются переменных, которые измеряются в интервальных
шкалах и шкалах соотношения. Все эти тесты требуют
предположения о нормальном распределении популяционных данных.
В противоположность им непараметрические тесты не
имеют всех вышеуказанных особенностей. Они не требуют
предположения о популяционных характеристиках и о нормальности распределения популяционных данных. Поэтому
их также называют тестами, свободными от параметров или
свободными от распределения. Используются непараметрические тесты для тестирования переменных, измеряемых в
номинальной или порядковой шкалах. Их также используют
в случаях, когда объемы данных недостаточны для применения параметрических тестов.
Основным недостатком непараметрических тестов является то, что по своей мощности они уступают параметрическим, поэтому в случаях когда можно использовать параметрический тест, использовать непараметрический тест не
следует.
ПРОВЕРКА ПО КРИТЕРИЮ ХИ-КВАДРАТ
Наиболее часто используемым из непараметрических
тестов является вычисление критерия соответствия, или
проверка по критерию хи-квадрат (Chi-square test). Используется проверка по критерию хи-квадрат для тестирования
гипотез о наличии связи между переменными, измеряемыми
в номинальной шкале. Одним из преимуществ этого статистического метода анализа является то, что он позволяет
проводить сравнения между двумя и более несвязанными
между собой совокупностями.
Так же, как и другие тесты по проверке гипотез, этот статистический метод анализа включает следующие основные
шаги: определение нулевой и альтернативной гипотез, вычисление по стандартной формуле статистической величины (χ2) и сравнение ее с критическим значением (соответст133
вующим выбранному значению α), приведенным в табл ице
критериев соответствия, вывод.
Альтернативная гипотеза в данном случае говорит о наличии связи между изучаемыми переменными, нулевая гипотеза – об отсутствии указанной связи. Особенностью этого метода анализа является вычисление так называемых
ожидаемых величин на основе предположения о том, что
нулевая гипотеза правдива. Вычисляемая статистическая
величина (χ 2), которая называется критерием соответствия,
показывает различие между фактическими данными, полученными в результате исследования и ожидаемыми данными, полученными на основе предположения о правдивости
нулевой гипотезы.
Для представления данных при этом методе анализа используются так называемые таблицы сопряженности. Таблица выражает идею о том, что одна переменная (например,
излечение и отсутствие излечения) может быть сопряжена с
другой переменной (например, вид антибиотика, использованного пациентом).
Проверка по критерию хи-квадрат является довольно
мощным статистическим тестом, однако и у него есть свои
ограничения. Для использования данного метода статистического анализа данные исследования должны быть представлены в виде абсолютных величин, а не показателей.
Данный метод анализа не может быть использован, если величина ожидаемых данных в какой-либо одной из категорий меньше 5. Для решения этой проблемы было предложено несколько методов, из которых наиболее часто используется поправка Йетса на непрерывность и точный критерий
Фишера.
Рассмотрим следующий пример. В приведенной ниже
таблице представлены результаты выборочного исследования по изучению взаимосвязи между тромбозом шунта и
применением аспирина.
134
Таблица 11. Тромбозы шунта при приеме плацебо и аспирина
Общее число Тромбоз есть Тромбоза нет
больных
Плацебо
25
18
7
Аспирин
19
6
13
Всего
44
24
20
100%
54.5%
45.5%
Как видно из таблицы 11, из 44 изученных больных
включенных в исследование, 25 - получали плацебо, остальные 19 – аспирин. Из 25 больных, получивших плацебо,
тромбоз был обнаружен у 18, тогда как из 19 больных, получавших аспирин- только у 6.
Начинаем проверку по критерию хи-квадрат с определения нулевой и альтернативных гипотез. Нулевая гипотеза в
данном случае будет утверждать, что никакой связи между
применением аспирина и частотой возникновения тромбоза
нет, альтернативная гипотеза будет утверждать обратное:
связь между изучаемыми переменными имеется.
Для вычисления ожидаемых данных мы предполагаем,
что нулевая гипотеза правдива. Если это так, то это означает, что распределение больных по частоте возникновения
тромбозов в обеих группах, у тех, кто получал плацебо, и у
тех, кто получал аспирин, должно быть одинаковым и таким, как в обеих группах вместе взятых.
Если общее число больных в обеих группах (44) принять
равным 100%, то согласно нулевой гипотезе, у 54.5% (24)
больных тромбоз должен был развиться, у 45.5% (20) –нет.
Таблица 12. Тромбозы шунта при приеме плацебо и аспирина: ожидаемые числа
Общее число Тромбоз есть Тромбоза нет
больных
Плацебо
25
13.6
11.4
Аспирин
19
10.4
8.6
Всего
44
24
20
135
Рассчитав, сколько составляет 54.5% от 25 и 19, получим
соответственно 13.6 и 10.4 (табл. 12). Это и есть ожидаемые
числа больных с тромбозом в группах плацебо и аспирина.
Таким же образом можно получить ожидаемые числа больных без тромбоза: в группе, принимающей плацебо – 45.5%
от 25, т.е. 11.4, в группе, принимающей аспирин – 45.5% от
19, т.е. 8.6.
Теперь можно приступить к расчету критерия соответствия. Формула для его вычисления следующая:
(O − E ) 2
χ2 = ∑
E
Где О- фактическое число в клетке таблицы сопряженности, Е – ожидаемое число в той же клетке. Суммирование
производится по всем клеткам таблицы. В результате получим:
(18 − 13.6) 2 (7 − 11.4) 2 (6 − 10.4) 2 (13 − 8.6) 2
+
+
+
χ2 =
13.6
11.4
10.4
8.6
2
χ = 1.42 + 1.70 + 1.86 + 2.25 = 7.23.
Полученное значение критерия соответствия сравнивается с табличным значением (таблица 13). Для пользования
таблицей критических значений, кроме статистистической
величины χ2, нужно также определить заранее величину
степени свободы (degree of freedom, df). Формула для вычисления df следующая:
df = (C-1)x (R-1),
где C- это число столбцов, а R- число строк в таблице сопряженности без столбца и строки «Всего».
В нашем примере df = (2-1)x (2-1) = 1. Это означает, что
критическое значение χ 2 мы должны искать на первой строке таблицы. На первой строке критическое значениеχ 2 , соответствующее уровню значимости 0.050, равно 3.84. Вычисленная нами величина - 7,3, значительно выше критического значения. Поэтому нулевая гипотеза об отсутствии
взаимосвязи между применением аспирина и частотой возникновения тромбоза нами отвергается и принимается альтернативная гипотеза.
136
Таблица 13. Критические значения χ2
df
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
0.100
2.71
4.61
6.25
7.78
9.24
10.64
12.02
13.36
14.68
15.99
17.28
18.55
19.81
21.06
22.31
23.54
24.77
25.99
27.20
28.41
29.62
30.81
32.01
33.20
34.38
Уровень значимости
0.050
0.025
0.010
3.84
5.02
6.63
5.99
7.38
9.21
7.81
9.35
11.34
9.49
11.14
13.28
11.07
12.83
15.09
12.59
14.45
16.81
14.07
16.01
18.48
15.51
17.53
20.09
16.92
19.02
21.67
18.31
20.48
23.21
19.68
21.92
24.72
21.03
23.94
26.22
22.36
24.74
27.69
23.68
26.12
29.14
25.00
27.49
30.58
26.30
28.85
32.00
27.59
30.19
33.41
28.87
31.53
34.81
30.14
32.85
36.19
31.41
34.17
37.57
32.67
35.48
38.93
33.92
36.78
40.29
35.17
38.08
41.64
36.42
39.36
42.98
37.65
40.65
44.31
137
0.001
10.83
13.82
16.27
18.47
20.52
22.46
24.32
26.12
27.88
29.59
31.26
32.91
34.53
36.12
37.70
39.25
40.79
42.31
43.82
45.31
46.80
48.27
49.73
51.18
52.62
КОРРЕЛЯЦИОННЫЙ АНАЛИЗ
Часто в биомедицинских исследованиях бывает необходимо определить наличие связи между двумя переменными,
например, связи между количеством потребляемой соли и
уровнем кровяного давления или между температурой окружающей среды и числом простудных заболеваний.
Различают две формы проявления количественных связей между явлениями или процессами: функциональную и
корреляционную.
Под функциональной понимают такую связь, при которой каждому значению одного из двух признаков соответствует строго определенное значение другого (например,
радиусу круга соответствует определенная площадь круга и
т.д.) Функциональная связь характерна для физикоматематических процессов.
При корреляционной связи каждому значению одного
признака соответствуют несколько значений другого взаимосвязанного с ним признака (связь между ростом и массой
тела, между температурой тела и частотой пульса и др.).
Корреляционная
связь
характерна
для
медикобиологических процессов.
Статистический метод, используемый для изучения характера корреляционной связи между двумя переменными,
называется корреляционным анализом.
Корреляционный анализ посредством вычисления коэффициента корреляции (r) позволяет изучить силу и направление связи между двумя переменными. Коэффициент корреляции может принимать значения от -1 до +1. Знак коэффициента корреляции показывает направление связи, а абсолютная величина- ее силу.
Знак + указывает на наличие между двумя переменными
положительной корреляционной связи, при которой увеличение величины одной переменной приводит к увеличению
значения другой переменной, находящейся с первой в корреляционной зависимости. Например, с увеличением систо138
лического давления повышается диастолическое или с увеличением роста повышается масса тела. Знак минус указывает на наличие отрицательной корреляционной связи: увеличение величины одной переменной приводит к уменьшению значения второй, находящейся с первой в корреляционной зависимости. Например, чем больше охват населения
вакцинацией, тем ниже уровень заболеваемости населения
заболеванием, против которого была проведена вакцинация
и т.д.
Чем сильнее корреляционная связь, тем больше абсолютная величина коэффициента корреляции. При отсутствии
корреляционной связи коэффициент корреляции равен 0.
Значения коэффициента корреляции от 0 до 0.3 указывают
на наличие слабой связи, от 0.31 до 0.7- средней связи и от
0.71 до 1 – на наличие сильной корреляционной связи между изучаемыми переменными.
Связь между двумя коррелирующими переменными образует двухмерное распределениe, которое обычно графически представляется в виде диаграммы рассеяния (scattergram). Значения первой переменной (систолическое давление, длина тела) обычно откладываются на горизонтальной
оси (X), значения второй переменной – на вертикальной оси
(Y). Каждая отложенная точка представляет наблюдение
пары значений, например, массу тела и длину тела каждого
обследованного. Таким образом, число отложенных точек
соответствует числу парных наблюдений. На рисунке 28
приведены 4 различные диаграммы рассеяния.
139
Рисунок 28. Диаграммы рассеяния
А r = +1
B r=-1
C r = -0.7
D r=0
По виду диаграммы рассеяния можно предварительно
судить как о направлении корреляционной связи между переменными, так и о ее связи. О наличии и силе корреляционной связи можно судить по тому, насколько точно через
отложенные точки можно провести прямую линию. Например, на рисунках A и B через отложенные точки можно
провести только по одной прямой линии, это означает, что
коэффициент корреляции равен 1. Рисунок С показывает
наличие между переменными сильной отрицательной связи
со значением коэффициента корреляции, приблизительно
равным - 0.7. На рисунке D проведение прямой линии через
отложенные точки пересечения невозможно, значит коэффициент корреляции приблизительно равен 0.
Двумя наиболее часто используемыми методами вычисления коэффициента корреляции являются метод Пирсона и
метод Спирмена. Метод Пирсона может быть использован
лишь для описания линейной связи между двумя переменными, измеряемыми в интервальной шкале или шкале соот140
ношений. Он требует нормальности распределения. Метод
ранговой корреляции Спирмена – это непараметрический
метод, он не требует какого-либо определенного типа распределения и, в основном, используется для выявления связи между переменными, измеряемыми в порядковой шкале.
Коэффициент корреляции по методу Пирсона, или методу квадратов, вычисляется по формуле:
r=
∑ (x − x )( y − y )
∑ (x − x ) ∑ ( y − y )
2
2
где r – коэффициент корреляции, ( x − x ) и ( y − y ) - отклонения каждой варианты от их средней в рядах x и y.
Пример вычисления коэффициента корреляции по методу Пирсона приведен в таблице 14.
Таблица 14. Данные уровня холестерина и триглицеридов у 10 больных с гипертриглицеридемией
Уровень
холестерина
(ммоль/л)
x
5.12
6.18
6.77
6.65
6.36
5.90
5.48
6.02
10.34
8.51
Xx = 6.73
r=
Уровень триглицеридов
(ммоль/л)
y
2.30
2.54
2.95
3.77
4.18
5.31
5.53
8.83
9.48
14.20
(x- x)
-1.61
-0.55
0.04
-0.08
-0.37
-0.83
-1.25
-0.71
3.61
1.78
(y- y)
-3.61
-3.37
-2.96
-2.14
-1.73
-0.6
-0.38
2.92
3.57
8.29
Xy = 5.91
(x- x)2
2.5921
0.3025
0.0016
0.0064
0.1369
0.6889
1.5625
0.5041
13.0321
3.1684
(y- y)2
13.0321
11.3569
8.7616
4.5796
2.9929
0.36
0.1444
8.5264
12.7449
68.7241
∑=
21.9955
∑=
131.2229
(x- x)(y- y)
5.8121
1.8535
0.1184
0.1712
0.6401
0.4980
0.4750
2.0732
12.8877
14.7562
∑=
39.2854
39.2854
39.2854
∑ (x − x )( y − y ) =
=
= +0.73
21.9955 ⋅ 131.2229 53.7244
∑ (x − x ) ∑ ( y − y )
2
2
141
Коэффициент корреляции равен + 0,73. Следовательно,
существует прямая сильная связь между уровнем холестерина и уровнем триглицеридов в крови.
Для того, чтобы убедиться в том, что коэффициент корреляции, вычисленный по данным выборочного исследования, будет соответствовать размеру связи в генеральной совокупности, необходимо определить среднюю ошибку коэффициента корреляции и критерий t:
mr =
1− r 2
,
n−2
t=
r
.
mr
В нашем примере:
m=
1 − 0.73 2
=
10 − 2
t=
0.4671
= 0.24
8
0.73
= 3.0
0.24
В соответствии с данными табл. 10, коэффициент корреляции, равный + 0.73, достоверен с вероятностью безошибочного прогноза > 95%, т.к. при n =10 полученный критерий t будет больше tтабл. = 2.228 (α = 0.05).
Таким образом, материалы выборочного исследования
позволяют утверждать, что в генеральной совокупности
существует сильная прямая связь между уровнем холестерина и уровнем триглицеридов в крови.
Коэффициент корреляции по методу Спирмена, или методу ранговой корреляции, вычисляется по формуле:
r = 1−
6⋅∑d 2
n(n 2 − 1)
где r – коэффициент корреляции, d – разность между ранговыми номерами сопоставляемых рядов, n – число обследованных.
142
Пример вычисления коэффициента корреляции по методу Спирмена приведен в таблице 15.
Таблица 15. Результаты оценки тяжести депрессии по
шкале депрессии Бека и шкале депрессии Гамильтона у
10 обследованных больных
Оценка по Оценка по
шкале дешкале депрессии
прессии
Бека
Гамильтона
x
y
20
22
11
14
13
10
22
17
37
31
27
22
14
12
20
19
37
29
20
15
r = 1−
6⋅∑d 2
= 1−
Ранговые
номера в
рядах
x
5
1
2
7
9.5
8
3
5
9.5
5
y
7.5
3
1
5
10
7.5
2
6
9
4
Разность
рангов
(d)
-2.5
-2
1
2
-0.5
0.5
1
-1
0.5
1
Квадрат
разности
рангов
(d2)
6.25
4
1
4
0.25
0.25
1
1
0.25
1
∑ = 19
6 ⋅ 19
114
= 1−
= 1 − 0.12 = +0.9.
10 ⋅ 99
990
n(n − 1)
Корреляционный анализ имеет ряд ограничений.
Во-первых, методы корреляционного анализа позволяют
выявить наличие между переменными линейной связи: они
определяют силу прямолинейной зависимости между двумя
переменными. Если между двумя переменными существует
сильная нелинейная зависимость, то метод корреляционного анализа может недооценить истинную силу связи между
2
143
ними. Лекарственный препарат имеет очень сильное воздействие в зависимости от его дозы, но он дает очень слабый эффект при очень высокой или очень низкой дозе. Таким образом, так как связь между дозой препарата и эффектом является нелинейной, значение коэффициента корреляции, вычисленного по методу Пирсона, будет очень низким,
если даже между эти переменными существует сильная зависимость.
Во-вторых, корреляционная зависимость между двумя
переменными, даже если она очень сильная, не свидетельствует о наличии между ними причинной зависимости.
Корреляция является лишь мерой статистической зависимости между переменными. Заключение о наличии причинной
связи между переменными на основе результатов корреляционного анализа является очень грубой ошибкой.
Коэффицент корреляции, рассчитанный по данным выборочного исследования, очень чувствителен к воздействию
крайних (выскакивающих) вариантов и при их наличии может приводить к неправильным результатам.
Наличие корреляционной зависимости между двумя переменными в выборке еще не означает, что она существует
в популяции. Для того, чтобы распространить результаты
корреляционного анализа, проведенного для данных выборки на всю популяцию, необходимо провести проверку гипотезы, которая включает проведение специального t-теста.
РЕГРЕССИОННЫЙ АНАЛИЗ
При наличии между двумя переменными корреляционной связи, врачам нередко приходится устанавливать на какую величину может измениться значение одной переменной (зависимой переменной) при изменении другой (независимой переменной) на общепринятую или установленную
самим исследователем единицу измерения. Например, как
изменится масса тела школьников 1-го класса (мальчиков
144
или девочек), если рост их увеличится на 1 см. В этих целях
применяется метод регрессионного анализа.
Различают простой и множественный регрессионный
анализ.
Метод простого линейного регрессионного анализа позволяет посредством простой линейной математической
функции (уравнения регрессии), определяющей прямолинейную зависимость между двумя переменными, определить величину одной переменной (Y) по величине другой
(X). Прямая линия, или линия регрессии, в сущности, является той же наиболее подходящей линией диаграммы рассеяния, которая используется при вычислении коэффициента корреляции. Уравнение простой линейной регрессии такое же, что и уравнение любой прямой линии.
Ожидаемая величина Y = α+ βX,
где α- константа, известная под названием пересечения,
так как это точка, в которой ось Y пересекается линией регрессии; β – это наклон линии регрессии, который известен
под названием коэффициента регресии; X – величина независимой переменной X. Пересечение линии регрессии показывает, чему будет равно среднее значение ожидаемой величины, при значении величины переменной X, равной 0.
Наклон линии регрессии показывает изменение ожидаемой
величины Y, соответствующее изменению величины независимой переменной X на единицу.
Допустим, обнаруженная нами линейная зависимость
между ростом и весом школьников 1-го класса описывается
следующим уравнением регрессии:
Y = -6 + 0.3 X.
В данном уравнении величина α = - 6, β = 0.3. Согласно
данному уравнению, при увеличении роста на 1 см средний
вес увеличивается на 0.3 кг.
Используя данное уравнение регрессии можно вычислить ожидаемое значение Y для любой величины X. Например, при росте школьников, равном 116 см, их средняя масса тела будет составлять 26,8 кг.
145
В уравнении множественной регрессии для определения
ожидаемой величины Y используется более одной переменной. Например, группой исследователей было установлено,
что масса тела новорожденного (Y, г) может быть частично
прогнозирована по числу сигарет, выкуриваемых в день как
матерью ребенка (X1), так и отцом (X2), по уравнению множественной регрессии Y = 3385 - 9 X1 – 6 X2.
Для определения нелинейной зависимости между множественными переменными используется другой статистический метод. Как и в случае корреляционной зависимости,
регрессионная зависимость не указывает на наличие причинной зависимости.
ВЫБОР АДЕКВАТНОГО
СТАТИСТИЧЕСКОГО ТЕСТА
Выбор адекватного статистического метода для определенной исследовательской проблемы определяется двумя
факторами: типом собранных данных, а именно шкалой измерения изучаемых переменных, и задачей исследования.
При изучении переменных, измеряемых в номинальной
шкале, задачей исследования может быть, например, сравнение двух и более несвязанных между собой совокупностей. Подходящим статистическим методом анализа в этом
случае может служить проверка по критерию хи-квадрат.
При изучении переменных, измеряемых в порядковой
шкале, задачей исследования может быть описание направления и силы связи между изучаемыми переменными. В
данном случае подходящим статистическим методом может
служить корреляционный анализ по методу Спирмена.
Для переменных, измеряемых в шкале соотношения, могут ставиться следующие задачи: 1) определение истинной
популяционной средней; 2) оценка достоверности различий
между двумя или несколькими выборочными средними; 3)
оценка достоверности различий между дисперсиями в двух
выборках; 4) описание силы и направления связи между
146
двумя переменными. В каждом конкретном случае может
быть использован либо t-, либо z- тест или ANOVA.
Для решения задач, касающихся оценки популяционной
средней, проверки гипотезы о популяционной средней или
для сравнения двух выборочных средних, обычно используется t-тест. В случае, если размер выборки n > 100 или если
популяционное стандартное отклонение известно, может
быть использован z-тест.
Когда задачей исследования является сравнение более
двух средних подходящим статистическим методом является дисперсионный анализ (ANOVA) c F-тестом. F–тест является единственным методом сравнения дисперсий в выборках.
Для оценки силы и направления связи между двумя переменными, измеряемыми в интервальной шкале или шкале
соотношений, используется корреляционный анализ по методу Пирсона, вместе с определенным видом t-теста для
проверки нулевой гипотезы об отсутствии связи между переменными в популяции. Для определения величины одной
переменной при наличии значения другой используется
регрессионный анализ.
ДИНАМИЧЕСКИЕ РЯДЫ
В научно-практической деятельности врачу нередко приходится анализировать происходящие во времени изменения в состоянии здоровья отдельных групп населения, в
деятельности медицинских учреждений, в экспериментальных исследованиях. Выявление основной тенденции изучаемого явления вне влияния «случайных» факторов позволяет определять закономерности изменения явлений и на
этой основе осуществлять прогнозирование.
Для изучения динамики изучаемого явления во времени
используются так называемые, динамические ряды. Динамический ряд - это ряд однородных величин, характеризующих изменения какого-либо явления в течение опреде147
ленного промежутка времени. Величины, составляющие
динамический ряд, принято называть уровнями. Уровни ряда могут быть представлены абсолютными, относительными или средними величинами.
В зависимости от характера уровней динамические ряды
могут быть простыми (уровни представлены абсолютными
величинами) или сложными (уровни представлены относительными или средними величинами).
Динамические ряды, состоящие из величин, показывающих величину изучаемого явления на определенные моменты времени, называются моментными. Уровни моментного
ряда не подлежат дроблению.
Динамические ряды, состоящие из величин, характеризующих величину изучаемого явления за определенный период времени (сутки, неделя, месяц, год и т.д.), называются
интервальными. Интервальный ряд в отличие от моментного можно разделить на более дробные периоды, а также
можно укрупнить интервалы. Выбор величины периода для
интервального ряда в известной мере определяется степенью изменчивости явления. Чем медленнее изменяется явление во времени, тем крупнее могут быть периоды наблюдения.
Приемы для установления тенденций или закономерностей изучаемого явления
Динамический ряд не всегда состоит из уровней, последовательно изменяющихся в сторону снижения или увеличения. Нередко некоторые уровни в динамическом ряду
представляют значительные колебания, что затрудняет возможность проследить основную закономерность, свойственную явлению в наблюдаемый период.
В этих случаях для выявления тенденции изучаемого явления рекомендуется произвести преобразование или выравнивание динамического ряда.
148
Преобразование ряда применяется для большей наглядности изменений изучаемых явлений. Одно из чисел ряда,
обычно первое, принимается за 100% и по отношению к
данному числу ряда, рассчитываются остальные.
Выравнивание ряда применяется при скачкообразных изменениях уровней ряда. Цель выравнивания - устранить
влияние случайных факторов и выявить тенденцию изменений значений явления, а в дальнейшем установить закономерности этих изменений.
Существует несколько способов выравнивания динамического ряда: укрупнение интервала, расчет групповой и
скользящей средней и др.
Укрупнение интервала применяется, когда явление в
интервальном ряду выражено в абсолютных величинах.
Производят укрупнение интервалов путем суммирования
данных за ряд смежных периодов (табл.16). Применение
этого способа выравнивания ряда возможно при кратном
числе периодов.
Как видно из табл.16, погодовые числа детей с осложненными формами пневмоний то увеличиваются, то уменьшаются. После укрупнения интервалов по два года можно
увидеть определенную закономерность, наибольшее число
осложненных форм пневмоний приходится на последний
двухлетний отрезок изучаемого периода.
Вычисление групповой средней применяется, когда
уровни интервального ряда выражены в абсолютных, средних или относительных величинах, которые суммируются, а
затем делятся на число слагаемых (см. табл. 16). Способ
применяется при кратном числе периодов.
Расчет скользящей средней применяется, когда уровни
ряда выражены в абсолютных, средних или относительных
величинах. Каждый уровень ряда заменяется на среднюю
величину из данного уровня и двух соседних с ним
(табл.16). Например, скользящая средняя для 1998 года будет равна: 15 + 9 + 26 = 16,7. Данный метод применяется,
когда не требуется особой точности, когда имеется доста149
точно длинный ряд и можно пренебречь потерей двух значений ряда.
Таблица 16. Динамика количества детей с осложненными формами пневмонии (ателектазы, деструкция), лечившихся в пульмонологическом отделении
Годы
1996
Число детей с
осложненным
50
течением
пневмонии
1997
1998
1999
2000
2001
2002
2003
2004
2005
9
15
26
31
25
18
16
39
26
Укрупнение
интервала
59
41
56
34
65
Вычисление
групповой
средней
29.5
20.5
28
17
32.5
Вычисление
скользящей
средней
24.7
16.7
24
27.3
24.7
19.7
24.3
27
Анализ динамического ряда
Для углубленного изучения процессов во времени рассчитывают показатели динамического ряда. К их числу относятся показатели абсолютного прироста, темпа прироста,
темпа роста, а также значение 1% прироста.
Абсолютный прирост и темп прироста применяются для
характеристики скорости изменения явления во времени.
Абсолютный прирост (убыль) - характеризует абсолютную величину прироста в единицу времени. Рассчитывается
абсолютный прирост как разность между данным и предыдущим уровнями динамического ряда (табл. 17). Например,
для 2001 г.: 23.0 – 26.0 = - 3.0.
150
Темп прироста – процентное отношение абсолютного
прироста к предыдущему уровню. Например, для 2001 г.: 3.0 х 100 / 26.0 = -11.5%.
Темп роста – процентное отношение последующего
уровня к предыдущему. Например, для 2001 г.: 23.0 х 100/
26.0 = 88,5%.
Значение 1% прироста используется при сравнении динамических рядов с разными исходными уровнями. 1%
прироста рассчитывается как отношение абсолютного прироста к темпу прироста за каждый период (табл. 17, 18).
Таблица 17. Динамика средней длительности пребывания на койке больных язвенной болезнью
Год
2000
2001
2002
2003
2004
Средняя
длительность
(в днях)
26.0
23.0
20.0
21.0
20.0
Абсолютный
прирост
(+,-)
-3,0
-3,0
+1,0
-1
Темп
роста
(%)
88.5
87.0
105.0
95.2
Темп
прироста
-11.5
-13.0
+5.0
-4.8
Значение
1%
0.26
0.23
0.20
0.25
Таблица 18. Динамика заболеваемости ветряной оспой
населения районов А и Б за 1997-2006 гг.
Районы
1997
2006
А
Б
Абсолютный
прирост
Темп
прироста
3.5
1.5
7.3
4.3
+3.8
+2.8
+108.6
+186.7
1% прироста
В районе А 1% прироста составил: +3.8/108.6 = 0.035
В районе Б % прироста равен: + 2.8/186.7 = 0.015
151
Анализ показателей таблицы 18 позволяет сделать вывод,
что хотя в районе Б темп роста заболеваемости превышает
темп роста заболеваемости в районе А, тем не менее, заболеваемость в районе А увеличилась в большей степени, чем
в районе Б.
СТАНДАРТИЗАЦИЯ ПОКАЗАТЕЛЕЙ
Сравнивая общие показатели, вычисленные для разных
совокупностей, следует иметь в виду возможность влияния
на их уровни неоднородности составов сравниваемых совокупностей по ряду признаков. Так, например, при сравнении общих уровней летальности, вычисленных для двух
больниц, прежде чем сделать вывод о причинах различий в
сравниваемых показателях, необходимо проанализировать однороден ли по нозологическим формам состав больных,
лечившихся в этих больницах. Понятно, что общий показатель летальности будет выше в той из больниц, где в составе больных было больше лиц с тяжелыми хроническими заболеваниями. Неоднородность состава больных в сравниваемых больницах не позволяет делать выводы о причинах
различий в уровнях показателей летальности.
При сравнении общих показателей, вычисленных из неоднородных по своей структуре совокупностей, применяется метод стандартизации.
Метод стандартизации показателей позволяет устранить
возможное влияние различий в составе совокупностей по
какому-либо признаку на величины сравниваемых общих
показателей. С этой целью составы совокупностей по данному признаку уравниваются, что в дальнейшем позволяет
рассчитать стандартизованные показатели.
Стандартизованные показатели – это условные, гипотетические величины, не отражающие истинных размеров явлений. Они свидетельствуют о том, какими были бы значения сравниваемых показателей, если бы были исключены
различия в составах совокупностей.
152
Существуют два основных метода стандартизации показателей: прямой и непрямой. Наиболее распространенным
является прямой метод стандартизации показателей.
Прямой метод стандартизации показателей
Этапы расчета стандартизованных показателей:
1. Расчет общих и специальных интенсивных показателей для двух сравниваемых совокупностей.
2. Выбор и расчет стандарта. Стандарт – это состав совокупности, который принимается общим для сравниваемых групп.
В качестве стандарта в каждом конкретном случае берется состав одной из сравниваемых совокупностей,
их суммарный состав, или состав какой-то третьей совокупности.
3. Вычисление ожидаемых абсолютных величин в группах сравнения на основе групповых интенсивных показателей, рассчитанных на I этапе.
4. Вычисление стандартизованных показателей для
сравниваемых совокупностей.
5. Сопоставление стандартизованных и общих интенсивных показателей, формулировка вывода.
Пример: Уровень летальности больных в больницах А и
Б составил соответственно 4 и 3.8 случаев на 100 выбывших больных. При углубленном исследовании выяснилось, что возрастной состав больных в двух сравниваемых больницах различен. Было произведено вычисление стандартизованных показателей летальности
(табл. 19).
I этап. Сначала определяют общие показатели летальности в больницах А и Б:
Больница А: 80 х 100/ 2000 = 4 на 100 выбывших
больных.
Больница Б: 76х 100/ 2000 = 3.8 на 100 выбывших
больных.
Затем находят показатели летальности в отдельных возрастных группах. Например, в больнице А у больных в воз153
растной группе до 40 лет летальность составляет: 12 х
100/600 = 2%, а в больнице Б, соответственно, 42 х 100/1400
= 3%. Аналогично проводят расчеты и в других возрастных
группах (табл.19).
I этап
II этап
Ожидаемое
число
умерших в
стандарте
600
12
1400
42
2
3
2000
40
60
200
8
200
10
4
5
400
16
20
1200
60
400
24
5
6
1600
80
96
2000
80
2000 76
4.5
3.8
IV этап
Определение стандартизованных показателей
4000
136
176
100
3.4
4.4
б-ца
А
б-ца
Б
Стандарт
(число больных
в обеих больницах)
из них умерло
Летальность
на 100 выбывших
больных
III этап
выбыло больных
Больница
Б
из них умерло
До 40
лет
От 40до 59
60
и
старше
Всего
Больница
А
выбыло больных
Возраст больных
Таблица 19. Летальность больных в больницах А и Б
б-ца
А
б-ца
Б
II этап. За стандарт принимают сумму выбывших больных по каждой возрастной группе в обеих больницах.
III этап. С учетом соответствующих показателей летальности определяют ожидаемое число умерших в больницах
А и Б по каждой возрастной группе. Например, в в больнице А у больных в возрастной группе до 40 лет ожидаемое
число умерших составляет: 2 х 2000/ 100 = 40, а в больнице
Б, соответственно, 3 х 2000/ 100 = 60. Аналогично проводят
расчеты и в других возрастных группах.
154
Находят сумму ожидаемых чисел умерших в больницах
А (40 + 16 + 80 = 136) и Б (60 + 20 + 96 = 176).
IV этап. Определяют общие стандартизованные показатели летальности в больницах А и Б:
Больница А: 136 х 100/ 4000 = 3.4 на 100 выбывших
больных,
Больница Б: 176 х 100/ 4000 = 4.4 на 100 выбывших
больных.
V этап. Сопоставление соотношения общих интенсивных
и стандартных показателей летальности в больницах А и Б
и формулировка вывода.
Показатели
Интенсивные
Стандартизованные
Больница
А
Больница
Б
4.0
3.4
3.8
4.4
Соотношение
АиБ
А>Б
А<Б
Если бы возрастной состав выбывших больных в больницах А и Б был одинаков, то летальность была бы выше в
больнице Б. На различия в уровнях летальности (в частности, на «завышение» ее в больнице А и «занижение» в
больнице Б) оказала влияние неоднородность возрастного
состава больных, а именно, преобладание в больнице А пожилых пациентов с относительно высоким показателем летальности, и наоборот, в больнице Б – больных в возрасте
до 40 лет, имеющих низкие показатели летальности.
155
Литература
1. Стентон Гланц. Медико-биологическая статистика.
Москва, 1999.
2. Beth Dawson, Robert G. Trapp. Basic and Clinical Biostatistics. Lange Medical Books/McGraw-Hill, 2001.
3. Leon Gordis. Epidemiology. W.B.Saunders Company,
1996. p. 400.
4. Marcello Pagano, Kimberlee Gauvreau. Principles of Biostatistics. Belmont, Duxbury Press, 1993. p. 112.
156
Скачать