Использование результатов оценки в образовании АККУРАТНЫЕ ДАННЫЕ АККУРАТНАЯ ИНТЕРПРЕТАЦИЯ Красноярск - 2013 Магистерская программа «Измерения в психологии и образовании» Вы не можете улучшить то, что не можете измерить вооруженные силы индустрия образование медицина Образование. Когда нам необходимы данные? • Решить вопрос о практиках обучения • Оценить эффект усовершенствования • Накопить свои знания для уверенности в нововведении Разочарование в данных Данные оказываются • Двусмысленными • Невоспроизводимыми • Очевидными и Скучными для специалистов в данной области • Неутешительными и Болезненными для исследователя Как не нужно относится к данным • Данные – это не панацея, а единственный путь получения знания • Не следует ожидать однозначных результатов (предпочтительны исследования соотношений и взаимодействий) • Не следует бояться исследований с усовершенствованными статистическими методами Проблема валидного исследования Обычные вопросы: Кто виноват? И Что делать? Вывод о причине и следствии A ВАЛИДНЫЙ ВЫВОД A предшествует по времени В Между А и В есть статистическая связь Нет другого альтернативного объяснения B Угрозы для вывода о причине и следствии • • • • • • • Фон Естественное развитие Эффект тестирования Инструментальная погрешность Статистическая регрессия Отбор испытуемых Отсев Фон • Помимо экспериментального воздействия может происходить множество других событий, вызывающих изменения Чем больше период времени между событием А и В, тем больше вероятность, что фон будет объяснять изменения TIMSS. Математика 580 Латвия 564 560 Литва 547 Россия 541 540 534 537 532 530 535 526 520 Венгрия 517 520 511 Болгария 529 508 512 506 504 505 502 500 501 493 482 493 Румыния Словакия Словения 482 480 476 Чехия 477 472 475 460 464 461 440 1995 1999 2003 2007 11 Естественное развитие • Все биологические и психологические процессы , которые независимо от воздействия изменяются с течением времени Ученики становятся старше, устают… Ест.науки Чтение Математика Ученики «старших» классов имеют выше результаты в PISA, чем их сверстники из «младших» классов Россия Чехия Словакия Венгрия средние 468 493 496 490 8 класс 426 380 363 387 9 класс 463 478 483 496 10 класс 494 520 506 524 средние 459 478 477 494 8 класс 418 366 346 391 9 класс 455 464 457 499 10 класс 485 505 492 534 средние 478 501 490 503 8 класс 434 382 368 400 9 класс 477 487 473 508 10 класс 499 526 502 538 Эффект тестирования • Влияние самого факта обследования Увеличение показателей достижений от одного тестирования к другому является важным аспектом любого измерения. При тестировании интеллекта или уровня знаний испытуемые обычно показывают лучшие результаты, по сравнению с теми, кто обследуется впервые. Для нетренированных испытуемых улучшение происходит на 3-5 ед.IQ безо всякого дополнительного обучения! Инструментальная погрешность • Автономные изменения в измерительных инструментах Эксперт, интервьюер или наблюдатель меняются сами в ходе измерения? Статистическая регрессия • Если для класса «коррекции» отбираются дети, получившие наихудшие результаты в тестах достижений, то при последующем их тестировании результаты наверняка будут выше. Когда ожидать регрессии к среднему? • Если группа сформирована по независимым основаниям и ее средний показатель окажется экстремальным, то в этом случае меньше оснований ожидать, что среднее этой группы будет регрессировать при повторном измерении. Когда ожидать регрессии к среднему? Если группа подобрана на основании крайних значений по ключевой переменной, то ее экстремальность является артефактом и она будет регрессировать в сторону среднего той популяции, из которой была отобрана. Как интерпретировать? Претест ЭГ Воздействие 90 Претест Программа по чтению Воздействие ЭГ 90 КГ 90 Программа по чтению Заключит. тест 97 Заключит. тест 97 97 Как интерпретировать? Претест Воздействие ЭГ + 97 ЭГ - 61 Новая программа по чтению Новая программа по чтению Заключит. тест 90 70 Отбор испытуемых • Сравниваются школы, где от преподавателя требуется особая квалификация, со школами, где нет такого требования • Сравниваются учащиеся, которых обучали с помощью традиционных и дискуссионных уроков, с теми, которых обучали только традиционным способом. • Сравнение тех, кто посещал дополнительные занятия с теми, кто не посещал Если при этом контрольная группа не проверялась на предмет изначальной эквивалентности с экспериментальной, то исходные условия могли повлиять на итоговые результаты. Выбывание • Потери в изначальной группе и случаи с частичными данными – отдельная проблема. ЭГ претест КГ претест воздействие посттест Посттест D. T. Campbell “Reforms as experiments” Результаты оценки и политическая уязвимость Программы защищаются так, как будто бы они обязаны быть успешными • Дефицит бюджета на оценку программ • Дефицит истинно сопоставимой сравнительной базы и конкретных доказательств • Факты по оценке экспериментальной программы, могут использоваться для оспаривания эффективности администрации Даже когда есть обязательства проводить оценку программы, эти угрозы ведут к провалу реалистической оценки Когда политическая или административная система уверена в правильности и эффективности программ, она никогда не потерпит «обучения на ошибках». Однако если мы надеемся жить в лучшем обществе и иметь лучшее образование, нам нужно сделать попытку использовать экспериментальный подход. Защита специфической реформы защита серьезности проблемы защита альтернативных попыток реформирования Несколько дизайнов, которые доступны при оценке широких программ и делают оценку «сильнее» Дизайн прерванных временных серий Дизайн разрывности регрессии Дизайн с контрольными сериями и некоторые другие. . Дизайн с прерванной временной последовательностью и неэквивалентной группой Несколько советов... для экспериментирующих администраторов: Работайте над хроническими проблемами. Это предпочтительнее реагирования на экстремальные события. для тех администраторов, кто скован политическими требованиями показать хорошие результаты нововведений,: Возьмите за точку отчета худший год и худший аспект проблемы. Поскольку ухудшаться уже некуда, результаты будут улучшаться. По-крайей мере, в типичных случаях... СПАСИБО ЗА ВНИМАНИЕ! http://psy.hse.ru/psy_edu/