МНОГОМЕРНЫЕ МЕТОДЫ АНАЛИЗА ДАННЫХ Условия нашей работы: (где и как можно получить МАТЕРИАЛЫ К КУРСУ) • http://www.bio.pu.ru/edu/ • bachelor/courses/ • mathmeth.php http://www.bio.pu.ru/ • • • • • http://www.bio.pu.ru/ -> edu/ -> bachelor/ -> courses/ -> mathmeth.php Практические занятия ????? • Начнутся с ноября (компьютерный класс на Среднем пр.) • Всего (!) 6 занятий • На основе пакета STATISTICA for Windows vers.7 • В отчетах к результатам анализа нужно будет добавить свои содержательные комментарии Материал для практики (Лучше приготовить свой!!!) • Признаков: не меньше 6-7 • Групп: не меньше 3-4 • Объем элементарной выборки: не меньше (5) – 10 • Желательно – реальные данные! Можно – из публикации или работы «старших коллег» • Альтернатива: выбрать на сайте (будут выложены позже) Методы анализа результатов научных исследований развиваются бурными темпами... Для подготовки студентов на современном уровне необходимо: • Понимание «классических методов» проверки надежности результатов («проверка гипотез» = статистика) • Знакомство с возможностями многомерного анализа и других методов «создания гипотез» , ресамплинга... • Возможность понимать и оценивать опубликованные работы (в том числе – зарубежные!) • Практическая реализация анализа – пакеты компьютерных программ: STATISTICA for Windows, SPSS… • «Теперь не нужно учить – В КОМПЬЮТЕРЕ ВСЕ ЕСТЬ!!!» • ОДНАКО 1) Необходимо понимать, ЧТО именно нужно 2) В программах тоже есть ОШИБКИ и РАЗНЫЕ ВАРИАНТЫ АНАЛИЗА (иногда приводящие к «СТРАННЫМ» РЕЗУЛЬТАТАМ) • Есть еще и ОШИБКИ ВВОДА ПРИМЕР 1 • Данные по 21 пробе – 210 видов • Данные ПОДГОТОВЛЕНЫ в виде компьютерной таблицы • Однако таблицу сделали в Word’e • Перенос содержимого такой таблицы в любую другую программу для анализа приводит к искажениям или к долгой и трудоемкой возне • Программа для работы с таблицами – Excel ! Именно из нее можно быстро перейти в самые разные программы (а также сделать некоторые простые вычисления, сортировки и пр.) ПРИМЕР 2 • При разных настройках компьютера могут быть приняты разные принципы записи числовых величин. Например, десятичная часть от целой отделяется точкой (принято в большинстве стран) или – запятой. • Если Ваш ввод не совпадает с форматом настройки и Вы никак не указали тип вводимых данных – программа может, например, воспринять числа как текстовые обозначения (коды) и дать им порядковые номера (которые и будут участвовать в анализе). • У меня был такой случай! • Возможны разные ошибки... • Например, вводя данные, полученные из разных источников, студент не заметил, что один из признаков записан в них с разной размерностью. Можно представить, какие замечательно четкие и достоверные различия между этими частями данных получились в результате!!! • В другом случае незамеченные исследователем грубые ошибки в данных, переданных для анализа, позволили сделать вывод о резком изменении структуры корреляций (в вариантах, где были эти ошибки). Что есть сейчас • Среди студенческих работ, поданных на конкурс Общества Естествоиспытателей, ~1/3 – с ошибками в анализе • На защитах квалификационных работ для полученных результатов часто не указывают степень их надежности и не могут сказать – что именно еще нужно было бы сделать. В большинстве случаев позиция студентов – отражение мнения их научных руководителей • Ничего измерять и считать не нужно: я и так все вижу! (...настоящий исследователь формирует «образ» в своем сознании...) • НО: как передать этот «образ» другим? ВСЕ ЯСНО: этот – круглый, а тот – квадратный... И считать здесь НЕЧЕГО!!! Нарисуем картинку... • НО: а если есть переходы («СЛАБО • ЗАКРУГЛЕННЫЙ»?) На самом деле «образ» формируется как комплексная (= многомерная) характеристика • Существующие методы многомерного анализа помогают создать такие характеристики и сравнивать разные «образы», • а также наглядно и убедительно показать результаты такого анализа. Для анализа не обязательно иметь результаты измерений или подсчетов (т.е. количественное = «интервальное» или «счетное» выражение признаков) Очень важный этап работы – отбор признаков и способ их «выражения» Губки сем. Lubomirskiidae; С.М.Ефремова • Особенности структуры скелета и составляющих его спикул • Разработка системы признаков • Анализ корреляций между признаками – их группировка - метод главных компонент • Группировка губок (соответствие предполагаемой) • Поправки в кодировку признаков Исходные материалы: фотографии Губки сем. Lubomirskiidae; С.М.Ефремова Признаки (всего 14) Баллы Всего SP1 Форма конца спикул (заостренные - закругленные) 1-4 4 O1 Шипы на основной части спикулы 0-2 3 O2 Шипы на концах спикулы 0-2 3 Ol Длина шипов 1-3 3 SPl Длина спикул измерения SPw Ширина спикул измерения T1 Упорядоченность главных (вертикальных) тяжей 1-6 6 T2 Расположение спикул в вертик. тяжах 1-3 3 T3 Упорядоченность и толщина поперечных тяжей 1-5 5 BR Щетки на концах тяжей (есть-нет) 0-1 2 F Форма губки (корковые - глобулярные) 1-3 3 Con Консистенция (мягкая - жесткая) 1-4 4 OSC Форма оскулюма (округл. - радиальн.каналы) 1-3 3 Q Окраска губки (зеленая - другая) 1-2 2 Организация главных (вертикальных) тяжей - T1 1 – Тонкие, плохо прослеживаются 2 – Тонкие, упорядоченные 3 – Более толстые, плохо прослеживаются от основания до поверхности 4 – Средней толщины, регулярные 5 – Широкие, регулярные 6 – Главные пучки преобладают Расположение спикул в вертикальных тяжах – Т2 1 – параллельное 2 – спиральное 3 – елочковидное Организация поперечных тяжей – Т3 1 – тонкие, нерегулярные 2 – более широкие, нерегулярные 3 – «сеточка» 4 – регулярные тонкие перекладины 5 – широкие пучки BR 0.8 0.6 Osize O1 0.4 CON SPend T2 OSC O2 T1 Factor 2 0.2 Шипы 0.0 на концах и – на осн.части спикул F -0.2 ПРИЗ НА КИ спикулы и шипы на них -0.4 тя жи эк стерье рны е -0.6 -0.8 0.8 T3 SPw SPl 0.6 0.4 Выраженность тяжей 0.2 0.0 -0.2 Factor1 -0.4 -0.6 -0.8 -1.0 2.0 11 111 1 1.5 1.0 0.5 FACTOR2 0.0 1 1 2 2 2 2 2 2 2 22 2 2 2 2 2 10 10 22 -0.5 10 13 55 13 12 1212 12 12 12 12 12 11 11 13 11 11 16 2 4 -1.0 Baikalospongia bacillifera -1.5 -2.5 -1.5 4 3 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 7 10 10 15 10 97 7 7 9 7 7 15 7 7 77 7 7 7 8 7 87 8 7 7 6 7 6 8 8 Lubomirskaja baikalensis 4 3 -2.0 -3.0 -2.0 Baikalospongia intermedia 10 3 34 33 4 4 4 4 14 14 -1.0 -0.5 0.0 FACTOR1 0.5 1.0 1.5 2.0 Rezinkovia echinata Gen.nov.,sp.nov . Rezinkovia arbuscula Gen.nov.,sp.nov. Lubomirskia incrustans sp.nov. Lubomirskia abietina Baikalospongia recta Baikalospongia martinsoni sp.nov. sp.nov. Морские звезды р. Trophodiscus А.В. Смирнов (ЗИН) T. almus Djakonov T. uber Fisher • T. uber Форма тела – звездообразная; R/r=1.85-2.28 Маргинальные пластинки покрыты игольчатыми гранулами, поэтому контур лучей имеет резкую пиловидную зазубренность. • T. almus Форма тела – пятигранник; R/r=1.47-1.80 Гранул нет, контур лучей гладкий. F 1.0 1 R1 Id Iu R/R R2 N WuWd Lu 0.5 Q n1 0.0 L/W n2 W/IdW/I W/dR -0.5 N/dR -1.0 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8 F2 Распределение особей T. almus Djakonov T. uber Fisher - other 2 1 * * * * * * * * 0 * * * * * * * * * * * * * * * -1 * -2 -2 -1 0 1 2 3 Распределение выборок по координатам 1.00 0.95 G1 0.90 0.85 0.80 0.75 2.3 2.4 2.5 2.6 G2 2.7 2.8 Гистограммы Рис. 1 Гистограммы распределения некоторых признаков 40 30 30 20 20 10 10 0 0 (1,2;1,3] (1 ,4;1 ,5 ] (1,6;1,7] (1 ,8;1,9 ] ( 2;2,1] (2 ,2 ;2,3 ] (2,4] ( ,5;,6] Отношение максимального радиуса к минимальному (,7;,8] (,9;1,] (1,1;1,2] (1,3;1,4] Ширина верхней маргинальной пластинки(м м) 60 30 Число экземпляров 50 40 20 30 20 10 0 Нет даже намека на двувершинность кривых!!! 10 0 (1,5;2] ( 2,5;3] (3,5;4] (4,5;5] Длина верхней маргинальной пластинки 9 10 11 12 13 14 15 16 17 18 19 Общее число игл 20 21 22 23 24 25 26 • П.В. Терентьев – о разделении «длинного ряда»: • ПРИ ДОСТАТОЧНО ШИРОКОМ ВАРЬИРОВАНИИ РАЗДЕЛЕНИЕ НЕПРЕРЫВНОГО РЯДА НА ЧАСТИ ДАЕТ ФОРМАЛЬНЫЕ ОСНОВАНИЯ СЧИТАТЬ РАЗЛИЧИЯ МЕЖДУ СОСЕДНИМИ ЧАСТЯМИ – ДОСТОВЕРНЫМИ • Разумеется, в каждой такой части должно быть «приличное» число объектов (большое «n») Ходорова Н.В. Строение перикарпия видов рода Corydalis DC. (Fumariaceae DC.) ВКР Бакалавра, 2004. • Не только морфология и/или систематика... • При расшифровке структуры молекулы антител – применение несимметричных мер отношений (для присоединяющихся элементов) привело к гипотезе нелинейности («закрученности») этой молекулы. • Альгофлора водоемов окрестностей Сочи Е. Николаева (22 пробы, 210 видов) Квалификационная работа магистра, 2006 р.Битха 19 1 р.Битха В.Дагомыс 9 р.Битха 2 4 8 11 7 Агур.вод Мацеста 6 р.Битха 3 10 20 5 р.Битха 22 17 MST (Минимальное 16 Покрывающее 18 13 Дерево) 12 15 14 Естественные 21 Искусственные 20 Анализ главных компонент Агур.вод. 0.6 0.5 7 11 10 2 В.Дагомыс 0.4 6 16 17 1 9 22 0.3 3 Битха 0.2 PC1 Мацеста 8 0.1 13 5 0.0 1-5 6 7-9 10-11 12-16 17-18 19-20 21-22 Битха Мацеста В.Дагомыс Агур.в. Лужи Басс.-1 Басс.-2 Басс.-3 14 12 21 15 4 20 19 18 -0.1 -0.2 -0.3 -0.4 -0.8 -0.6 -0.4 -0.2 0.0 PC2 0.2 0.4 0.6 Группировка обследованных территорий по составу бриофлоры (А. Немыкин, магистерская квал.работа, 2006) Дендрограмма Ward`s method Ст Казацк ЛесВ СтИзг ОстрЯры ЯмСтеп ЛысГоры Барка БукрБ 0.70 0.75 0.80 0.85 0.90 0.95 Linkage Distance - Jaccard coefficient 1.00 1.05 Граф сходства, построенный на основе MST (Minimum Spanning Tree) В области АНАЛИЗА ДАННЫХ наряду с разнообразными методами многомерного анализа формируются и принципиально новые направления: • Новые подходы к оценке надежности получаемых результатов – РЕСАМПЛИНГ • Новые подходы к анализу формы и ее изменений – ГЕОМЕТРИЧЕСКАЯ МОРФОМЕТРИЯ Отношения между БИОМЕТРИЕЙ и АНАЛИЗОМ ДАННЫХ «БИОМЕТРИЯ» Основа: ТЕОРИЯ ВЕРОЯТНОСТИ Объект: ВЫБОРКА И ГЕНЕРАЛЬНАЯ СОВОКУПНОСТЬ Задача: ОЦЕНКА НАДЕЖНОСТИ РЕЗУЛЬТАТОВ = ПРОВЕРКА ГИПОТЕЗ •ПРОВЕРКА ГИПОТЕЗ «БИОМЕТРИЯ» «АНАЛИЗ ДАННЫХ» Основа: МАТРИЧНАЯ АЛГЕБРА Объект: ВЫБОРКИ = множество многомерных описаний Задача: ПОСТРОЕНИЕ ГИПОТЕЗ: Как группируются объекты (ординация)? Насколько согласованы изменения признаков? • Использование методов многомерного анализа позволяет выявить изменчивость (и/или группировку) множества объектов по комплексным характеристикам (НАГЛЯДНОСТЬ) • Это не исключает возможность оценки надежности полученных результатов методами классической статистики, но также добавляет использование для этого специальных методов ресамплинга