представление результатов статистического анализа

реклама
УДК 796:311
ПРЕДСТАВЛЕНИЕ РЕЗУЛЬТАТОВ СТАТИСТИЧЕСКОГО АНАЛИЗА В
ПУБЛИКАЦИЯХ НАУЧНЫХ ИССЛЕДОВАНИЙ В ОБЛАСТИ
ФИЗИЧЕСКОЙ КУЛЬТУРЫ И СПОРТА
В.Н. Болгов – кандидат педагогических наук, доцент
Камская государственная инженерно-экономическая академия
Набережные Челны
DATA OF SCIENTIFIC RESEARCH STATISTICAL ANALYSIS IN THE
FIELD OF PHYSICAL CULTURE AND SPORTS
V.N. Bolgov – Candidate of Education, associate professor
The Kama State Academy of Engineering and Economics
Naberezhnye Chelny
e-mail: bvntat@yandex.ru
Ключевые слова: методы математической статистики, ошибки.
Аннотация. В статье рассмотрены возможности представления математической
статистики в публикациях научных исследований.
Key words: methods of mathematical statistics, errors.
Summary. The article deals with the opportunities of mathematical statistics presentation in
publications of scientific researches.
Представление выборочных характеристик.
В публикациях, как правило, представляются не исходные данные, а результаты статистической обработки. Это очень удобно, так как большие совокупности чисел заменяются
несколькими параметрами несущими всю исходную информацию. Обладая знаниями в математической статистике можно удостовериться в правильности выводов автора публикации
или усомниться в нем. Но для такого прочтения научной публикации необходимо, чтобы ее
автор дал четкие объяснения, какие методы он использует, и приводил числовые характеристики по правилам принятым в математической статистике.
Так как значения переменных не постоянны, для описания их изменчивости применяются описательные или дескриптивные статистики. Они дают общее представление о значениях, которые принимает переменная: среднее, дисперсия, среднее квадратическое отклонение, ошибка среднего значения, медиана, квартили, мода и т.д. В.М. Зациорский [3] считает, что минимальная статистическая обработка материала для научной публикации заключается в том, что исследователь должен указать:
1) числовую характеристику положения; например, среднее арифметическое;
2) числовую характеристику рассеивания; например, среднеквадратическое отклонение;
3) объем выборки (число наблюдений, испытуемых и т.д.).
Он подчеркивал, что без указания этих числовых характеристик публикация научной
ценности не имеет.
К сожалению, авторы научных публикаций представляют результаты исследований,
используя различные обозначения статистических показателей. Не всегда указывают объем
выборочной совокупности (n). В одном номере журнала (см. ТПФК. 2008. №1) можно встре1
PDF created with pdfFactory Pro trial version www.pdffactory.com
тить обозначение среднего арифметического как M и Х, стандартные отклонения δ и S.
Ошибки средних ±m или ±Sx. Такое разнообразие представлений результатов исследования
затрудняет их понимание и сравнение с другими данными.
Как отмечают Л.И. Орехов и Е.Л. Караваева причина такого разнообразия – различные рекомендации по статистическим методам, изложенные в учебных пособиях [6].
При изложении материала мы будем использовать следующие обозначения статистических характеристик:
M – среднее арифметическое;
Mo – мода;
Me – медиана;
SS – дисперсия;
S – стандартное отклонение;
m – стандартная ошибка среднего;
95%M – 95% доверительный интервал рассеяния среднего;
V – коэффициент вариации;
n – размер выборки.
Другая проблема, связанная с описанием в публикациях выборок, состоит в том, что
авторы совсем не приводят обозначения статистических характеристик и поэтому, например,
выражение 12,2±0,4 сек не всегда понятно. Если первое число это, очевидно, среднее значение, то число после знака ± может означать ошибку среднего, среднеквадратическое отклонение или 95% доверительный интервал рассеяния среднего.
Нередко автор публикации стоит перед выбором, какую из перечисленных характеристик использовать для описания выборочного параметра. В литературе можно встретить рекомендации отдающие предпочтения различным вариантам [5]. Однако, учитывая, что S, m,
95%M связаны между собой и зная объем выборки (n) можно легко высчитать интересующий вас, как читателя научной публикации, но не приведенный автором параметр. Так "m" и
"S" связаны между собой соотношением
m=
S
n
S
m=
(1) ;
n
1 (2)
(формула (1) используется при n ≥ 20, формула (2) при n ≤ 20)
а, 95%M для выборочной совокупности рассчитываются как
М–tk*m и M+ tk*m (3)
где tk – это критическое значение двухстороннего t-критерия Стьюдента, которое
можно найти в таблице этого значения с учетом числа степеней свободы (n-1). Или рассчитать 95% M для генеральной совокупности при а=0,05
M–1,96*m и M+1,96*m. (4)
Таким образом, выбор варианта определяется только логикой анализа статистических
данных. Если речь идет о сравнении групповых средних, то лучше использовать ошибку
среднего (m), если приводятся выборочные характеристики отдельных групп то стандартное
отклонение (S). Для описания точности оценок среднего применяется 95% доверительный
интервал рассеяния среднего (95%M). Следует только указывать, что именно вы использовали для описания выборочных параметров.
Когда необходимо сравнить вариативность признаков, измеренных в различных единицах, то кроме вышеупомянутых числовых характеристик приводятся коэффициенты вариации. Хотя и этот безразмерный показатель, при желании, также можно вычислить, зная
среднее арифметическое и стандартное отклонение, используя формулу:
S
V = 100%
M
(5)
2
PDF created with pdfFactory Pro trial version www.pdffactory.com
С помощь коэффициента вариации можно судить об однородности выборок или стабильности результатов, что бывает весьма важно в спортивных исследованиях.
Приведем пример: в материалах международного семинара «Легкая атлетика в XXI
веке», посвященного столетнему юбилею Николая Озолина, на странице 53 авторы приводят
результаты экспериментальной группы в прыжках в высоту 201,5±8,0 см, при этом поясняют, что число после ± – среднее квадратическое отклонение. Глядя на эти цифры, мы можем
оценить насколько широко разбросаны (рассеяны) результаты в группе относительно их
среднего арифметического. Так как авторы приводят объем выборки (n=13) то, используя
формулу (2), вычисляем ошибку среднего арифметического – m=2,3 см. Теперь мы можем
оценить точность оценки среднего арифметического 201,5±2,3 см. Далее по формуле (3) найдем 95% доверительный интервал рассеяния среднего 95%M=201,5±4,8 см (при а=0,05 и
n=13 tk =2,175). Он показывает, что истинное среднее значение в прыжках в высоту для данной группы находится в интервале от 197 см до 206 см с вероятностью в 95%. Наконец, вычисляем коэффициент вариации по формуле (5) V=4,0%. По этому параметру мы делаем заключение об однородности выборки.
Еще одна проблема – описание в публикациях выборок, не соответствующих нормальному закону распределения. Описание таких выборок с помощью средних и показателей
дисперсии не отражает реальных представлений о характере распределения изучаемого признака в выборке. Вместо них должны использоваться другие показатели, такие как медиана
(50-й центиль, или точка, которая делит данные на две равные части) и межквартильный
диапазон (обычно от 25-го до 75-го центиля). В случае если у вас номинальные переменные,
то используйте моду.
Представление результатов корреляционного анализа.
Парный корреляционный анализ требует, чтобы переменные, используемые в анализе,
были либо количественными (непрерывными) либо ранговыми, порядковыми (дискретными). Самым точным выражением корреляции является ее оценка при помощи коэффициентов корреляции. Наиболее часто используются коэффициент корреляции r Браве-Пирсона,
коэффициент ранговый корреляции Спирмэна или коэффициент ранговой корреляции Кендэла.
Планируя корреляционный анализ необходимо помнить, что на основании коэффициентов корреляции можно судить только о прямолинейной корреляционной взаимосвязи между признаками. О криволинейной связи с их помощью ничего сказать нельзя. При нелинейной зависимости между явлениями линейный коэффициент корреляции теряет смысл, и для
измерения тесноты связи применяют так называемое корреляционное отношение (индекс
корреляции).
Если между количественными переменными установлена линейная связь, и они подчиняются нормальному распределению, то используют коэффициент корреляции r БравеПирсона. Коэффициент корреляции Браве-Пирсона относится к параметрическим коэффициентам (параметрическими являются, также методы определения корреляционного отношения
и подсчета множественных коэффициентов корреляции). Для количественных признаков, не
подчиняющихся нормальному распределению, и для порядковых переменных используют
коэффициент ранговой корреляции Спирмэна или коэффициент ранговой корреляции Кендэла.
Ранговым коэффициентом корреляции можно выявлять взаимосвязи между переменными, имеющими любые статистические распределения. Но если эти переменные имеют
нормальное распределение (Гаусса), то более точно связь можно установить с помощью
нормированного (Бравэ-Пирсона) коэффициента корреляции. Точность оценки генерального
параметра р с помощью коэффициента Спирмена при больших объемах выборки составляет
91,2% по отношению к точности оценки по коэффициенту корреляций Пирсона.
Таким образом, без упоминания проверки на нормальность распределения переменных при применении коэффициент корреляции r Браве–Пирсона, в полученных результатах
3
PDF created with pdfFactory Pro trial version www.pdffactory.com
можно усомниться. При использовании коэффициентов корреляции в научных публикациях
следует уточнять, какой из трех коэффициентов использовал автор. К сожалению, как и в
случае с методами сопоставления данных при сравнивании групп, в публикациях часто отсутствует упоминание о методе корреляционного анализа.
Однако только по величине коэффициентов корреляции нельзя судить о достоверности корреляционной связи между признаками. Значимость определенного коэффициента
корреляции зависит от объема выборок (n). Чем больше объем выборки, тем выше достоверность связи при одном и том же коэффициенте корреляции. В результате при малом объеме
выборки может оказаться так, что сильная корреляция окажется недостоверной. В то же время при больших объемах выборки слабая корреляция может оказаться достоверной.
Уровень значимости, вычисленный для каждой корреляции, представляет собой главный источник информации о надежности корреляции. Чаще всего проверяется значимость
линейного коэффициента корреляции на основе t-критерия Стьюдента. Достоверность коэффициента корреляции определяется по таблицам критических значений коэффициентов корреляции.
Для классификации корреляционных связей по их силе используется две системы:
общая и частная. Первая классифицирует по величине коэффициента корреляции, вторая по
уровню значимости корреляции.
В общей классификации корреляционных связей (по Ивантер Э.В., Коросову А.В.,
1992):
1) сильная, или тесная при коэффициенте корреляции r>0,70;
2) средняя при 0,50<r<0,69;
3) умеренная при 0,30<r<0,49;
4) слабая при 0,20<r<0,29;
5) очень слабая при r<0,19.
В частной классификации корреляционных связей:
1) высокая значимая корреляция – при г, соответствующем уровню статстической
значимости р<0,01;
2) значимая корреляция – при г, соответствующем уровню статистической значимости
р<0,05;
3) незначимая корреляция – при г, не достигающем уровня статистической значимости.
Обычно принято ориентироваться на вторую классификацию, поскольку она учитывает объем выборки. Вместе с тем, необходимо помнить, что сильная, или высокая, корреляция
– это корреляция с коэффициентом r>0,70, а не просто корреляция высокого уровня значимости.
Общепринято указывать значимость коэффициента корреляции. Например (Педагогика, психология и медико-биологические проблемы физического воспитания и спорта. 2008.
№ 4. С.167), получен коэффициент корреляции r между масса тела и МПК r=0,58 при n=10.
Чтобы оценить значимость коэффициента корреляции, нужно сравнить его с критическим,
величина которого зависит от объёма выборки и устанавливаемого исследователем уровня
значимости (а). Если расчетное значение коэффициента корреляции больше, чем критическое, это означает, что коэффициент корреляции статистически достоверен (rр > rk). В нашем
случае критическое значение коэффициента корреляции при a=0.05 составляет rk =0,632 (rр <
rk). Из этого следует, что с уверенностью в 95% можно утверждать, что рассчитанный коэффициент корреляции статистически недостоверен.
В этой же статье автор совершает ошибку, применяя коэффициент корреляции Пирсона при сравнивании качественного признака и количественного – «решительность и бег на
1500м».
4
PDF created with pdfFactory Pro trial version www.pdffactory.com
Литература
1. Баева, Т.Е. Применение статистических методов в педагогическом исследовании : учеб.-метод. пособие для студ. и аспирантов ин-тов физ. культуры / Т.Е. Баева, С.Н. Бекасова, В.А. Чистяков; под общей ред.
М.В. Прохоровой; НИИХ Санкт-Петербургского ун-та. – СПб. , 2001. – 82 с.
2. Возможности непараметрики в спорте / В. Ткачук [и др.] [Электронный ресурс]. – Режим доступа:
http://lib.sportedu.ru/books/xxpi/2004N6/p56-72.htm.
3. Зациорский, В.М. Осторожно: статистика! / В.М. Зациорский // Теория и практика физической культуры. – 1989. – № 2. – С. 52-55.
4. Кизько, А.П. Принципиальные вопросы корректности результатов экспериментального исследования в области физического воспитания и спорта / А.П. Кизько // Теория и практика физической культуры. –
2004. – № 1. – С. 59-61.
5. Лакина, Г.Ф. Биометрия / Г.Ф. Лакина. – М. : Высшая школа, 1990. – 352 с.
6. Орехов, Л.И. О необходимости соответствия статистических и экспериментальных методов современным требованиям / Л.И. Орехов, Е.Л. Караваева // Теория и практика физической культуры. – 2005. – № 3. –
С. 46-49.
7. Основы математической статистики : учеб. пособие для ин-тов физ. культуры / под ред. В.С. Иванова. – М. : Физкультура и спорт, 1990. – 176 с.
8. Сидоренко, Е.В. Методы математической обработки в психологии / Е.В. Сидоренко. – СПб., 2002. –
С. 302.
Literature
1. Baeva,T.E. Statistical technology application in an educational research: student’s book / T.E. Baeva, et al;
edited by M.B. Prokhorovoy. – St. Petersburg: NIIH, 2001. – 82 pp.
2. Nonparametrics potential in sports. / V. Tkachuk, et al [internet resource]. – Access mode:
http://lib.sportedu.ru/books/xxpi/2004N6/p56-72.htm.
3. Zatsiorskey, V.M. Be careful: statistics! / V.M. Zatsiorskey // Theory and Practice of Physical Culture. 1989. – V. 2. – P. 52-55.
4. Kyzko, A.P. Outcome of experiment correctness point of principle in the field of physical training and
sports / A.P. Kyzko // Theory and Practice of Physical Culture. – 2004. – V. 1. - P. 59-61.
5. Lakina, G.F. Biometrics / G.F. Lakina. – Moscow: Higher School, 1990. – 352 c.
6. Orekhov, L.I. About the necessity of statistical and experimental technology up-to-dateness / L.I. Orekhov,
et al // Theory and Practice of Physical Culture. – 2005. – V. 3. – P. 46-49.
7. Mathematical statistics principles: manual for physical culture higher educational establishments / edited by
V.S. Ivanov. – Moscow: Physical Culture and Sports, 1990. – 176 pp.
8. Sidorenko, E.V. Methods of mathematical treatment in psychology / E.V. Sidorenko. – St. Petersburg,
2002. – 302 pp.
5
PDF created with pdfFactory Pro trial version www.pdffactory.com
Скачать