ОТЧЕТ о пребывании делегации Федерального института педагогических измерений в США с 4 по 14 мая 2006 года По приглашению Американских советов (American Councils) делегация Федерального института педагогических измерений за период пребывания в США (4-14 мая 2006 года) посетила г. Вашингтон (Американские советы, American Councils), г. Принстон (Службу образовательного тестирования, ETS - Educational Testing service) и г.Нью-Йорк (Совет колледжей, Сollege Board). В состав делегации входили: А.Г.Ершов, директор ФИПИ (руководитель делегации), В.Н.Шаулин, начальник Управления контроля качества образования Рособрнадзора, Г.С.Ковалева, зам. директора ФИПИ, С.В.Станченко, зам. директора ФИПИ, Л.О.Денищева, председатель ФПК по математике, И.П.Цыбулько, председатель ФПК по русскому языку, М.Зельман, консультант Американских Советов. Программа пребывания в США дается в приложении 1. Основная цель визита делегации ФИПИ в США познакомиться с опытом американских коллег в области образовательного тестирования и оценки качества образования. Ниже приводится краткое описание содержания работы делегации, основные выводы и рекомендации. 5 мая, г.Вашингтон, Американские Советы После краткого приветствия Президента Американских Советов профессора Д.Дейвидсона и ответного выступления директора ФИПИ А.Г.Ершова работа российской делегации началась с презентации деятельности Совета колледжей по разработке тестов, используемых для отбора в вузы, с которой выступила Саrol Blythe, и.о. директора отдела международного образования Совета колледжей (Office of International Education, The College Board). Совет колледжей является ассоциацией средних школ (старшей ступени) – 60% членов, колледжей и университетов. Создан в 1900 году как группа колледжей, которая начала разработку стандартизированных процедур принятия абитуриентов в вузы на основе единого вступительного теста («College Boards»). В настоящее время Совет колледжей осуществляет деятельность по организации разработки и проведения тестов SAT; организации разработки программ AP (Advanced Placement Program), проведению тестов AP, оказанию помощи учителям в преподавании программ AP; по организации разработки программ и тестов для подготовки к сдаче SAT – PSAT/NMSQT. Тесты SAT включают единый для всех тест SAT Reasoning Test (SAT-I), оценивающий критическое мышление учащихся, и предметные тесты SAT Subject Tests (SAT-II). Тест SAT Reasoning Test сдают все поступающие в вузы1, независимо от того, по какой специальности они планируют получить образование. Он является единым для всех измерителем. Тест оценивает «умение логически мыслить, использовать слова и числа, применяя знания для решения задач по математике или анализируя и интерпретируя различные тексты». До 2005 года тест SAT-I включал 7 разделов, каждый из которых состоял из 10-30 заданий: 3 раздела на проверку словарного запаса и умения рассуждать и понимать прочитанный текст (70 мин); 3 раздела по математике (70 мин) – на проверку умения решать математические задачи (для решения требуется знание элементарных сведений из арифметики и алгебры, знание фактов о площадях, периметрах, объемах и некоторых других При поступлении в вузы США принимаются результаты двух тестов SAT или ACT (American College Testing, суб-тесты по отдельным предметам (английскому языку, математике, чтению и естествознанию). Как правило, тесты SAT распространены на западной и восточной части США, а тесты ACT – в центре страны. Вузам дается таблица пересчета баллов SAT и ACT. 1 1 простейших положений элементарной геометрии); 1 раздел - экспериментальный2 (либо вербальный, либо математический) – 40 мин. Всего на выполнение теста отводилось 3 часа. Оценивается работа по 1000-балльной шкале (рабочая часть шкалы – 200-800 баллов). Отдельно выставляется балл за вербальную и математическую части теста. Задания SAT-I составляются так, чтобы проверить (по замыслу составителей) не знания, полученные в школе, а умение мыслить. С 2005 года введена новая более усложненная версия тестов SAT. В них появилась третья часть – сочинение, оценивающая грамотность письменной речи (добавилось 45 мин), увеличилась сложность некоторых задач по математике до уровня углубленного курса «Алгебры», введены задания с развернутым ответом. Предметные тесты SAT Subject Tests используются для оценки освоения предметных знаний, а также умения применять их в незнакомых ситуациях, включающих практические. Эти тесты разрабатываются по 5 академическим областям: английский язык как родной (Письмо и Литература), история (История США, Мировая история), математика (1 и 2 уровня), естественнонаучные предметы (Биология, Химия, Физика) и иностранные языки (китайский язык (с аудированием), французский язык (с аудированием), немецкий язык (с аудированием), современный еврейский язык, итальянский язык, японский язык (с аудированием), корейский язык (с аудированием), латинский язык, испанский язык (с аудированием), английский язык как второй язык). Содержание тестов не рассчитано на какую-либо программу обучения или определенный учебник, однако при их разработке учитываются образовательные стандарты, а также существующие наиболее распространенные программы и учебники. Тесты SAT проводятся 7 раз в году по субботам в школах или специальных центрах. Используется несколько вариантов тестов для каждого тестирования и разных часовых поясов. Проверяемые умения одинаковые во всех тестах. Задания перемешиваются. Все варианты тестов связаны между собой. Результаты выдаются по единой шкале. Для подготовки к тестированию можно использовать специальные публикации (SAT Preparation Booklet, SAT Subject Tests Preparation Booklet), которые имеются в каждой школе или на сайте Совета колледжей (см. Приложение 2). Стоимость сдачи одного теста в 2005-06 учебном году SAT Reasoning Test - $41.50, SAT Subject Test -$26 (для одного предмета), $34 – для двух предметов и $42 для трех предметов. Результаты тестирования можно получить по телефону через 10 дней за плату в $11, через 2,5 недели бесплатно на сайте и официально по почте. Сертификат действителен 5 лет3. В последние годы широко обсуждается проблема эффективности тестов SAT. По мнению многих специалистов в США, тест SAT-I (сам по себе) не является эффективным средством прогнозирования успешности обучения в университете. Они считают, что тест эффективен только в комбинации с другой информацией, которая предоставляется при приеме в вуз, и без нее не может использоваться. В настоящее время элитные учебные заведения редко опираются исключительно на результаты тестов SAT. Стали считать, что важным является освоение учебной программы в школе, а также мотивация к учению. Они стали требовать одновременной сдачи тестов SAT-I и SAT-II по нескольким предметам и предъявления дополнительной информации об обучении в школе. Программа AP дает возможность ученику средней школы начать изучение программ повышенного уровня по 20 учебным дисциплинам (всего по 35 различным программам). В зависимости от результатов экзамена студента, принятого в университет, могут освободить В экспериментальный раздел включаются задания, проходящие апробацию в режиме экзамена. Результаты выполнения этих заданий не учитываются. Тестируемые знают, что один раздел из 7-ми является экспериментальным, но не знают, какой именно. 3 Несмотря на это, ряд университетов принимает абитуриентов, сдававших экзамен в течение последнего года. Для тех, кто сдавал раньше, устраивается дополнительное испытание. 2 2 от изучения отдельных курсов или предложить их изучение на более высоком уровне. Более 60% американских школ осуществляют обучение по программам AP и сдачу экзаменов AP. За последние годы разработаны программы и тесты AP по японскому языку (работа выполнена за счет японского гранта в 20 млн. дол.), китайскому языку (грант Китая в 29 млн. дол.) и русскому языку. Совет колледжей ежегодно проводит 2,8 млн. человеко-тестирований по SAT; 3,1 млн. человеко-тестирований по PSAT и 2,3 млн. по AP). Важной частью первого дня работы была встреча с Sara Mead, аналитиком по вопросам образовательной политики исследовательского центра Education Sector. Обсуждались проблемы, связанные с особенностями американской системы образования и тестирования. Контекст американского образования: Управление системой образования осуществляется на трех уровнях (федеральном, на уровне отдельных штатов и отдельных территориальных единиц). Система образования включает 50 штатов, 14000 школьных округов и 94000 школ. Более 90% учащихся начальных и средних школ посещают государственные школы. Состав учащихся: 60% белых, 17% афроамериканцев, 17% испаноамериканцев. Каждый шестой ребенок из бедной семьи. У каждого шестого ребенка английский язык не родной (дома говорят не на английском языке). Тестирование в американских школах проводится по следующим направлениям: диагностическое тестирование (для выявления детей, требующих оказания специальной помощи); текущая оценка; оценка достижения образовательных стандартов в штатах (Реформа «Ни одного отстающего, No child left behind»); выпускные экзамены по окончанию средней школы, High School Exit Exams; тесты AP после изучения углубленных курсов по отдельным школьным предметам, результаты которых учитываются при поступлении в престижные вузы; вступительные экзамены в вузы (SAT и ACT), College Admission Tests; сертификационные тесты (для различных профессий). Основные цели образовательного тестирования: - выявить учащихся, требующих специальной помощи; - помочь родителям и учителям отслеживать обучение детей; - обеспечить отчетность и развитие школ (продемонстрировать качество школьного образования); - обеспечить отчетность учащихся (продемонстрировать овладение учебным предметом или готовность к обучению); - обеспечить равенство в образовании (обеспечить достижение всеми учащимися определенных уровней стандартов). Основные проблемы в тестировании: - использование результатов тестирования (в соответствии с целями, для которых был разработан тест); - качество тестов; - обучение на тест; - тестирование и равенство; 3 - принятие решения о том, что оценивается тестом. Некоторая информация о качестве тестирования в рамках программы «Ни одного отстающего»: - За последние годы спрос на образовательное тестирование значительно увеличился в связи с программой «Ни одного отстающего». Стандарты штатов и стандартизированные тесты стали доминирующей частью образования. Весной 2006 года в рамках вышеприведенной программы протестирован каждый ученик с 3 по 8 класс, а также все ученики одной параллели старшей школы по математике и чтению (около 45 млн. человекотестирований). - В каждом штате используются свои стандартизированные тесты (50 штатов – 50 различных наборов тестов для реализации программы «Ни одного отстающего»). - Не хватает необходимых кадров и инфраструктур (Всего в стране действует 20 программ по подготовке специалистов в области педагогических измерений, которые выпускают ежегодно всего 100 специалистов). - Требования рынка, небольшой бюджет штатов на тестирование и жесткие временные рамки снижают его качество. Проблемы качества тестов: использование заданий, проверяющих низкий уровень усвоения, отсутствие выравнивания тестов, низкая точность измерений, несвоевременность представления результатов тестирования. - Для улучшения ситуации независимыми экспертами рекомендуется усилить роль федеральных структур, увеличить контроль за качеством тестирования и организовать сотрудничество штатов. Какие уроки можно извлечь из опыта тестирования в США, по мнению американских коллег? - Для обеспечения равенства в образовании необходимы единые национальные стандарты. - Важным аспектом является качество тестов. Качественные тесты требуют значительного финансирования и их трудно разработать. Для обеспечения качества тестов необходимы ресурсы и достаточное время для разработки. - Важным аспектом является эффективность используемых шкал для предоставления результатов тестирования. Во время командировки делегация посетила два университета: Университет Джорджа Вашингтона (негосударственный университет) в г. Вашингтон 5 мая (Thadissa Fulwood, заместитель директора офиса приема) и Городской университет Нью-Йорка (государственный университет) 11 мая (Ywona Kurij, заместитель директора офиса приема) с целью ознакомления с правилами приема в эти университеты. Ниже приведено краткое описание особенностей приемы в американские университеты. Документы во все университеты подаются в течение всего года, но обычно до 15 марта и 1 октября. Документы, которые учитываются всеми вузами4 страны: 1. Результаты сдачи тестов SAT или ACT5. Относится только к высшим учебным заведениям, входящим в состав американских университетов. В состав университетов входят образовательные учреждения, реализующие программы начального, среднего и высшего профессионального образования, которые отличаются правилами приема, программами и продолжительностью обучения. 4 4 2. Информация о школьной успеваемости поступающего. Выписка из школьного журнала об успеваемости учащегося (обычно за 4 года, не считая последний год). Дополнительные документы, которые требуются при приеме в Университет Джорджа Вашингтона6: 1. Анкета поступающего, в которой приводится вся информация о поступающем и его родителях, братьях и сестрах; образовательных учреждениях, в которых он обучался; о предметах, которые изучаются в последний год, баллы по тестам SAT или ACT и TOEFL (только для тех учащихся, для которых английский не является родным), внеклассной деятельности и работе и др. 2. Два эссе объемом не более 500 слов: в первом описывается, почему выбран именно этот университет; во втором – почему выбрано именно это направление обучения или специальность. 3. Рекомендация учителей, в которой дается характеристика учащегося, сильные и слабые стороны личности, академические способности оценка академической мотивации, креативности, лидерства, чувства юмора, самооценки и др., (передается школой в запечатанном конверте). 4. Рекомендация тьютора или классного руководителя, в которой дается рейтинг ученика в классе, приводятся его баллы по тестам SAT или ACT и TOEFL (только для тех учащихся, для которых английский не является родным), оценка академической мотивации, креативности, лидерства, чувства юмора, самооценки и др. (заполняется та же таблица, что и в рекомендации учителей), (передается школой в запечатанном конверте). Портфолио, CD, видео принимаются только при поступлении на отделения изобразительного искусства. При поступлении на все отделения, по завершению которых присваивается степень бакалавра или магистра, требуется предъявление сертификата о сдаче предметных тестов SAT. Ни на одну из программ обучения не установлен проходной балл. С 2006 года принимают абитуриентов с суммарным баллом по трем частям теста SAT-I, лежащим в границах от 1860 до 2040 баллов. Не определен вес отдельных документов. Решение принимается на основе всего пакета документов. Дополнительных документов при приеме в Городской университет Нью-Йорка не требуется. Выписка из школьного журнала об успеваемости учащегося за 4 года требуется по пяти предметам: английский, математика, естествознание, иностранные языки и искусство). Учитывается средний балл по этим предметам. Все данные о поступающих вводятся в компьютер и осуществляется независимый отбор. Только в случае пограничных данных, личные дела абитуриентов передаются на факультет для принятия решения. В этом случае могут быть запрошены рекомендации из школы или дополнительные сочинения. После приема в университет все первокурсники, независимо от направления обучения, проходят тестирование по письму, чтению и математике. Единые тесты для всех направлений разрабатывают, проводят (все три теста в один день) и обрабатывают специалисты университета. По результатам тестирования корректируется программа обучения студента. По сложившейся традиции вузы США требуют результаты сдачи одного из тестов (SAT или ACT). Например, Университет Джорджа Вашингтона принимает результаты или тестов SAT, или ACT, а Принстонский университет только SAT. 6 - Подобный перечень типичен для негосударственных университетов. 5 5 8 мая, г.Вашингтон, Американские Советы Второй день работы делегации был посвящен обсуждению вопросов организации и проведения национального мониторинга NAEP (National Assessment of Educational Progress). Американский опыт представляли Arnold Goldstein, сотрудник Национального Центра образовательной статистики Министерства образования США, и Howard Everson, исполнительный директор программы NAEP-ESSI. Национальная программа мониторинга NAEP (National Assessment of Educational Progress), известная также как “Nation’s Report Card”, была создана по распоряжению Конгресса США в 1969 году для независимой оценки качества образования в стране в ответ на запуск советского спутника. (В 1965 г Форд передал правительству США 2,5 млн. долларов для создания мониторинговой программы.) На протяжении более 35 лет в США регулярно проводятся мониторинговые исследования по чтению, математике, естествознанию, письму, а также другим предметам. С 1990 года результаты исследований представляются не только на уровне страны, но также по отдельным штатам. Основная цель NAEP - оценить знания и умения американских школьников по ключевым предметным областям, а также оценить прогресс (динамику) в образовательных достижениях в течение времени. В соответствии с целями NAEP имеет два направления исследований – основной мониторинг NAEP и лонгитьюдный мониторинг Long-term Trend NAEP. Для основного мониторинга NAEP разрабатывается специальная концепция содержания оценки, которая пересматривается каждые 10 лет. Каждые два года проводится исследование по чтению и математике в 4, 8 и 12 классах на национальном уровне и в 4 и 8 классах на уровне штатов. Каждые 4 года проводится исследование по естествознанию и письму в 4, 8 и 12 классах на национальном уровне и в 4 и 8 классах на уровне штатов. По другим предметам исследования проводятся периодически. Лонгитьюдный мониторинг Long-term Trend NAEP измеряет динамику образовательных достижений американских школьников по математике и чтению, используя частично задания и формат заданий, сохранившиеся с 1969 года для сравнения результатов. Исследования проводятся среди учащихся 9-ти, 13-ти и 17-ти лет. Начиная с 2004 года, результаты будут сообщаться стране каждые 4 года. В таблице представлен график проведения мониторинговых исследований NAEP. Мониторинговые исследования проводятся на представительных выборках учащихся 4, 8 и 12 классов (по 10000 учащихся на предмет и класс). Результаты отдельным учащимся не выдаются. Участие школ и учащихся необязательное. Концепцию оценки разрабатывает Комитет NAGB (National Assessment Governing Board), состоящий из 26 членов, назначенных министром образования. В состав комитета входят учителя, методисты, директора школ, родители, представители общественности, губернаторы, тестологи. Они определяют цель и содержание проверки, а также спецификацию теста. От 40 до 45 штатов участвуют с проведении NAEP на уровне штатов (по 3000 учащихся на предмет и класс). С 2003 года по Акту 2001 года «Ни одного отстающего» каждый штат получает специальное федеральное финансирование для участия в мониторинге на национальном уровне и на уровне штата по математике и чтению в 4 и 8 классах, проводимом каждые 2 года (90 млн. долларов в год по 3 предметам по всем штатам). Школам, показавшим слабые результаты, оказывается финансовая помощь из федерального бюджета. Таблица. График проведения мониторинговых исследований NAEP Год Основной мониторинг NAEP Лонгитьюдный 6 Национальный уровень На уровне штатов 1990 Математика, естествознание, чтение Математика (8) 1992 Математика, чтение, письмо Математика (4,8), Чтение (4) 1994 География, история США, чтение Чтение (4) 1996 Математика, естествознание Математика (4,8), Естествознание (8) мониторинг Long-term Trend NAEP Математика, естествознание, чтение, письмо Математика, естествознание, чтение, письмо Математика, естествознание, чтение, письмо Математика, естествознание, чтение, письмо 1997 Искусство (8) 1998 Чтение, письмо, граждановедение Чтение (4,8), Письмо (8) Математика, естествознание, чтение 1999 2000 Математика, естествознание, чтение (4) 2001 История США, география Математика (4,8), Естествознание (4,8) 2002 Чтение, письмо Чтение (4,8), письмо (4,8) 2003 Чтение (4,8), Математика(4,8) 2004 Чтение (4,8), Математика(4,8) 2005 Чтение, математика, естествознание 2006 История США, Экономика (12), граждановедение 2007 Чтение (4,8), Математика (4,8), письмо (4,8) 2008 Искусство (8) Чтение (4,8), Математика (4,8), Естествознание (4,8) 2009 Чтение, Математика, Естествознание Чтение (4,8), Математика (4,8), Естествознание (4,8) Математика, чтение Чтение (4,8), Математика (4,8), Письмо (4,8) Математика, чтение 2010 Мировая история (12), география Методология разработки инструментария и проведения исследования Разработка концепции и спецификации теста - Комитет NAGB; Разработка тестов и анкет – ETS; 7 Формирование выборки и проведение апробационного и основного исследования на представительных выборках – WESTAT (нанимает 3000 человек для проведения независимого тестирования); Проверка выполнения заданий с развернутыми ответами – PEARSON, чаще всего в режиме он-лайн по отсканированным изображениям на компьютере (в основном по 4-балльной холистической, интегральной шкале: 4 балла выдающийся ответ, 3 балла – удовлетворительный, 2 балла – частично правильный, 1 балл – минимальный уровень, 0 – неправильный). Анализ результатов, подготовка отчетов – ETS. Отчет публикуется через 6 месяцев, поэтому нет времени на дополнительное шкалирование и выравнивание результатов. Поэтому тесты отрабатывается на представительных выборках за год до основного исследования, на что идет 1/3 всего бюджета. Отчеты обычно достаточно простые с минимально необходимой основной информацией (до 40 стр.). Вся остальная информация, включая технический отчет, представлена на сайте. Проблемы и риски: Политические: правительство не контролирует штаты, в связи с чем программы обучения и уровень образования различные, тесты не соответствуют программам штатов, что вызывает трудности при использовании результатов (это уменьшает участие регионов). Технические: за короткий срок трудно разработать и провести большое число тестирований, трудно создать инструментарий, оценивающий одинаковые конструкты при условии обучения по различным программам, сложная инфраструктура из нескольких организаций, информационная безопасность. Финансовые: Любые изменения и новые задачи требуют больших затрат. В настоящее время мониторинговые исследования финансируются полностью из федерального бюджета, мало спонсорских грантов. Перспективы: необходимы изменения в способах тестирования: компьютерное тестирование с интерактивной средой измерения, ориентация не на прогноз (SAT ошибается в 6-7 случаях из 10), а на критериальное тестирование, результаты которого описывают, что знает и не знает тестируемый, в чем ему можно помочь; разработка нового направления когнитивного тестирования. - 9 мая, г.Принстон, Служба образовательного тестирования Работа в Службе образовательного тестирования ETS (Educational Testing Service) началась со знакомства с организацией. 1. История и направления деятельности ETS, Zoelene Hill, менеджер Глобального института Службы образовательного тестирования. ETS (служба образовательного тестирования) – это одна из самых больших в мире частных организаций, занимающаяся разработкой тестов и оценкой образовательных достижений. Она поддерживает постоянную связь с родителями, учителями, учащимися, правительством, бизнесменами, средствами массовой информации и другими слоями общества. Компания была создана в 1947 году, ее основателем был Генри Ченси. Девизом – лозунгом компании являются слова listening, learning, leading, выражающие идеологию всей работы компании: – слушать (родителей, учащихся, широкие слои общественности, запросы современного этапа развития общества и пр.); - учиться (тому, что нужно, что требует данный момент, мировому опыту); - быть лидером, руководить разработками различных аспектов в области тестовых технологий. 8 ETS имеет представительства в 13 странах мира, разрабатывает около 2,5 тысяч тестов, более 800 специалистов заняты исследованиями (307 разработчиков тестов, 270 научных сотрудников, занимающиеся исследовательской работой, 260 аналитиков, работающих с данными тестирования). Основными направлениями работы являются: 1. Научные исследования 2. Разработка программ и инструментария для оценки образовательных достижений 3. Проведение тестирования (бланковых, компьютерных, через Интернет) 4. Проверка и оценка работ тестируемых (более 64 тысячи работ в день) 5. Разработка методических материалов и оказание услуг Ежегодно ETS проводит до 24 млн. человеко-тестирований в более 180 странах мира. 2. Процесс разработки и создания тестов, Esther Tesar, специалист в области оценки образовательных достижений. Разработка тестов включает 9 этапов: 1. планирование теста (цели теста, что и как измеряется, как оценивается тест, интерпретация оценки, кто и что делает и т.п.) 2. отбор комитета, определяющего идеологию разработки теста и основные параметры инструментария; 3. составление и экспертиза заданий; 4. апробация отдельных вопросов; 5. анализ результатов апробации; 6. экспертиза и корректировка вопросов; 7. сборка (компоновка) теста; 8. печатание теста; 9. Проведение тестирования; 10. Предварительный анализ результатов; 11. Окончательный анализ результатов. 3. Надежность и валидность тестирования, Michael Zieky, директор отдела оценки образовательных достижений. Презентация была посвящена вопросам разработки характеристик (надежность; валидность), показывающих качество теста. При этом были даны определения указанных характеристик и рассмотрены математические модели подсчета значений надежности теста. Важным аспектом, представленным в докладе, явилось описание отдельных путей увеличения надежности, определение «длины» теста, обеспечивающей заданную надежность результатов тестирования. Надежность 0,8 для аттестации школы специалистами ETS считается удовлетворительным результатом, но не для индивидуальной оценки учащихся на экзаменах (должна быть не менее 0,9). Большое внимание было уделено понятию валидности, показано изменение взглядов на эту характеристику; рассмотрены пути, обеспечивающие конструктную валидность теста (самую важную с современной точки зрения). 4. Проблемы справедливого тестирования и дифференцированное функционирование заданий, Fred Robin, специалист в области разработки тестов. Указанная в докладе проблема – обеспечение справедливого тестирования – одна из важнейших и обсуждаемых всеми проблем. Это обусловлено тем, что США – это многонациональная страна, в которой проживают люди, имеющие различные обычаи, взгляды, привычки, различный уровень достатка и т.п. Поскольку результаты тестирования играют важную роль в жизни общества (отбор в учебные заведения, отбор при устройстве на работу и пр.), то составители тестовых заданий чувствуют особую ответственность при отборе материала для конструирования заданий. В ходе предварительных проверок отбираются и впоследствии включаются в тесты только те задания, которые не вызывают дискриминации участников тестирования. 9 5. Разработка и создание тестов, основанных на доказательствах, Russel Almond, старший научный сотрудник. Одна из проблем, которая постоянно встает при разработке тестовых заданий, - это обеспечение доказательства того, что данным заданием проверяется владение именно тем умением, которое обозначено в целях проверки. Докладчик показал модель разработки заданий и тестов, основанной на приведении доказательствах. 10 мая, г.Принстон, Служба образовательного тестирования Основной темой дня была «Оценка выполнения практических заданий» (performance assessment, далее в тексте РА)7. Беседу вела Андреа Ферси, старший администратор Национальной программы оценки прогресса в области образования. Круг вопросов, затронутых в рамках обсуждения данной проблемы: 1) проблемы терминологического единства в рамках обсуждаемой проблемы; 2) положительные и отрицательные стороны внедрения технологии оценки РА; 3) оптимальная модель проверки подобных заданий; 4) что значит хороший ответ экзаменуемого в формате РА; 5) возможные модели оценки портфолио. Основным научным посылом обсуждения перечисленных вопросов явился тезис о том, что опыт ETS в области РА может быть использован только с учётом специфики системы образования в каждой стране. При обсуждении первого вопроса Андреа Ферси подчеркнула, что в работе по оценке знаний, умений и навыков тестируемых важны единые подходы. Система критериев оценки должна быть точной, чёткой и включать в себя все требования задания. При этом критерии должны следовать в том порядке, в котором их проще оценить. Эксперты оценивают различные по форме задания: открытый вопрос, вопрос по руководству, незаконченное утверждение, эссе. Стимулировать к созданию ответа может карта, графика, чтение текстов. В процессе дискуссии были обсуждены положительные и отрицательные стороны внедрения РА. Как положительные отмечались следующие моменты: ответы обладают большей достоверностью; ответ более точно отражает личностные характеристики экзаменуемого; с помощью задания РА можно оценить те способности, которые нельзя оценить другими видами заданий; ответы нельзя угадать. С другой стороны, как отрицательные отмечены следующие стороны: проверка работ более продолжительна по времени и дороже стоит; ответы могут быть разнообразными и непредсказуемыми; на оценку может повлиять субъективность эксперта; на результаты влияют способности к чтению и письму; эти виды работ более уязвимы с точки зрения информационной безопасности. Подобные отрицательные стороны можно частично компенсировать, если четко спланировать эту работу. Члены делегации ФИПИ согласились с докладчиком в том, что, прежде всего, необходимо: чётко сформулировать цель проверки; убедиться в том, что критерии оценки соответствуют формулировке задания; - performance assessment – не переводится однозначно на русский язык. В данном случае имеется в виду оценка выполнения различных видов заданий с развернутым ответом типа эссе, практических работ, опытов, рисунков и т.п. 7 10 определить содержание, которое будет оцениваться. Количество вопросов должно отражать оцениваемое содержание; необходимо оценивать значимую, важную информацию, а не второстепенные факты; в случае необходимости оценки нескольких областей знания или способностей в рамках одного теста следует группировать вопросы на несколько групп и результаты соотносить; вопросы не должны быть знаниевоориентированы и в чём- то обманывать экзаменуемых. В ходе обсуждения был проведён обмен мнениями по поводу разнообразных видов (типов) заданий. Специалист Национального института оценки прогресса в области образования отметила, что в практике тестирования используются различные виды (эссе, запись на диске, компьютерная программа, спектакль) и типы заданий: задания с очень ограниченным кратким свободным ответом ( «Завершите предложение», «Исправьте предложение…»; задания с ограниченным свободным ответом ( «Упростите предложение…», «Опишите ситуацию или событие», « Скомпонуйте информацию графически, используя данные из текстов» и др.); открытое задание («Что вы думаете о предмете и почему?», «Проанализируйте ситуацию и выскажите мнение о развитии событий», «Прочитайте речь Линкольна и отметьте важные пункты его послания. Сравните их с решениями, которые он принял во время гражданской войны.»; задания более высокого уровня сложности, требующие длительного исполнения ( интервью, устные презентации; проекты (индивидуальные или групповые), эксперименты (демонстрации)- проведение экспериментов и описание полученных данных. Особый интерес для делегации ФИПИ представляла оценка портфолио, к разработке которой сотрудникам только предстоит. Портфолио – один из самых сложных для оценки видов работы. Портфолио содержит образцы работ учащихся, отобранные преподавателем или самим студентом, замечания преподавателя, самооценка ученика, примечания, сделанные учителем и учеником. Объём и содержание потфолио могут отличаться. Учащийся вправе выбирать для портфолио тот вариант работы, который он считает более удачным. Если цель – показать прогресс учащегося во времени, то тогда в портфолио включаются показатели на разных этапах работы. Если в портфолио включается проект, то там должны содержаться полные записи всех действий ученика, планы, чертежи, исправления. В ходе обсуждения были рассмотрены две модели портфолио. При формировании портфолио учащийся должен ответить на вопросы: 1) Что ты выбрал для своего портфолио? Почему именно эти работы ты отобрал для портфолио? 2) Какую часть портфолио ты мог бы назвать лучшей? 3) Как бы ты изменил недостаточно хорошие части твоей работы? 4) Приведи доказательства своего роста на примере материалов портфолио. 11 мая, г.Принстон, Служба образовательного тестирования В соответствии с программой работа делегации продолжалась по следующим направлениям: 1. Система оценки ответов тестируемых в режиме он-лайн, Phillip Servis, координатор по проверке ответов. 11 Для проверки и оценки работ тестируемых разработана веб-система (Online Scoring Network, OSN), позволяющая экспертам удаленно со своих рабочих мест вносить результаты проверки работ в единую базу, размещенную на сервере. Режим работы экспертов зависит от конкретного теста. Например, эксперт может работать дома, а может сидеть в специальном помещении. В OSN поддерживается разграничение прав пользователей, обеспечивается аутентификация и авторизация при входе в систему. Эксперт перед началом работы подписывает соглашение о соблюдении конфиденциальности (на бумаге). OSN включает несколько разделов, вход в которые осуществляется под разными логинами и паролями: Информационный раздел, в том числе, описание программы тестирования, спецификации заданий, критерии проверки, описание всех градаций оценки, инструкции по проверке работ, инструкции по работе в OSN и выставлению оценок, требования к компьютеру. Раздел для проверки работ и выставления оценок экспертом. Здесь эксперту предлагаются изображения работ тестируемых (сканированные) и возможность либо выставить оценку за работу (для каждой оценки своя кнопка), либо «отложить в сторону» (кнопка и последующий выбор из меню причины, по которой работа откладывается). Бланк работы можно рассматривать более крупно с помощью инструмента «лупа». Причины, по которым откладываются работы, следующие: не по теме, плохой почерк, плохое изображение, «не могу прочитать», «обсудить с лидером группы проверяющих», эмоциональный контент, списанная работа, другое. Под «эмоциональным контентом» понимаются упоминания тестируемого о намерении совершить убийство, суицид или нечто подобное. Если причина отложенности работы устранена (например, эксперт обсудил работу с лидером) ее можно вернуть в категорию проверяемых и выставить оценку. Раздел для операторов и лидеров групп проверки. Здесь размещены сводные таблицы, отражающие ход проверки. Таблица по экспертам включает сведения о том, сколько работ проверено каждым экспертом, сколько всего работ проверено, отложено, не проверено. По каждому эксперту можно посмотреть сводную таблицу по проверенным им работам, которая включает: дату и время проверки, оценку, оценку при повторной проверке, контрольную оценку. Наличие и процент повторной проверки зависит от программы тестирования. Например, в SAT повторная проверка обязательна. При несовпадении оценок двух экспертов в один балл работу проверяет третий, имеющий более высокую квалификацию. При наличии большого числа несовпадений у одного эксперта с остальными, его могут отстранить от проверки. Контрольная проверка проводится в рамках мероприятий по обеспечению безопасности при тестировании. Проверяется примерно 10% работ. Варианты использования OSN Сертификация экспертов. Она проводится по следующей схеме: эксперту предлагается 50 работ, проверенных заранее (т.е. с эталонными оценками). Проверяемое задание и критерии проверки могут отличаться от задания и критериев, с которыми эксперту предстоит работать. В качестве параметра, определяющего квалификацию эксперта, используется процент работ, по которым оценка эксперта в точности совпадает с эталонной оценкой. Чтобы пройти сертификацию, эксперту необходимо выставить совпадающие с эталонными оценки не менее чем в 60% работ. Если эксперт не участвует в проверке работ 3 или более месяцев, то он должен повторно пройти сертификацию. Калибровка экспертов. Проводится в день проверки перед ее началом. Процедура аналогична сертификации. Отличия: 1) эксперту дается 10 работ вместо 50, 2) в случае несовпадения оценок лидер группы проверяющих проводит инструктаж с 12 экспертом, а затем процедура калибровки повторяется. (Для примера, на TOEFL на одного лидера группы проверки приходится 12 экспертов). Проверка работ. Это реальная проверка работ тестируемых. 2. Безопасность при тестировании. Ray Nicosia, исполнительный директор отдела профессиональных стандартов и жалоб По результатам опроса, проведенного среди учащихся старшей школы США, 97% учащихся признали, что хотя бы раз в жизни жульничали на экзаменах (academicintegrity.org). ETS работает с 25000 центров тестирования (в основном – в колледжах) в 192 странах. В 150 странах были зафиксированы случаи жульничества на экзаменах. В год проводится около 24 млн. человеко-тестирований. С ETS сотрудничают 3-4 организации, помогающие в обеспечении мер безопасности (при ревизии технологий и расследовании случаев жульничества). Каждый центр тестирования нанимает персонал для проведения тестирования, в том числе, персонал, обеспечивающий безопасность. ETS обеспечивает центр тестирования инструктивными материалами для подготовки персонала. Весь персонал заключает контракты, включающие обязательства по соблюдению мер безопасности. Директор ETS имеет право просмотра разрабатываемых тестов, но никогда не пользуется этим правом. Всего примерно 10% персонала так или иначе имеют допуск к разрабатываемым тестам SAT. Все они подписывают соглашение о соблюдении конфиденциальности. Различные программы тестирования имеют различный уровень безопасности и, соответственно, сопровождаются различным объемом мер по соблюдению безопасности. Всего используется три уровня безопасности: Низкий – тестирование проводится внутри образовательного учреждения, например, школы, и его результаты не влияют на дальнейшую судьбу учреждения и отдельных учащихся. Средний – это обычно мониторинговые исследования, например, NAEP. Высокий – тестирование, результаты которого влияют на судьбу тестируемых, например, SAT. Категории жульничества при тестировании Списывание, общение. Примеры: обмен записками под мусорным ведром в мужском туалете или другом условном месте, сигналы руками, пальцами, цветными конфетками m&m, посылка sms (старшеклассники могут набирать вслепую под столом), звонки по телефону и т.п. Подмена человека. Например, передача или подделка документа. Есть профессиональные «экзаменуемые», стоимость услуги по сдаче, например, выпускного экзамена – 15000$. Предварительная осведомленность о билетах. Обычно в случаях воровства. Если становится известно о воровстве вариантов, экзамен отменяется. Может отмениться в целом штате. Утечка информации в центре тестирования. Это самый массовый вариант жульничества. Среди персонала центра тестирования оказываются заинтересованные люди, учителя, которые помогают своим ученикам, порой бесплатно. Меры безопасности Превентивные меры o При транспортировке все коробки с пачками заворачиваются в специальный материал. тестов и сами пачки 13 o При распаковке супервайзер должен посчитать бланки 5 раз. o Тренинги для персонала центра тестирования. o Заключение контракта с персоналом центра тестирования. В программах тестирования среднего и высокого уровней безопасности контракт предполагает обязательные пункты о соблюдении режима безопасности. Контракт опирается в основном на нормативные документы ETS. o Проверка всех объявлений в Интернете о продаже вариантов (чаще всего это бывает обман). o Дежурства проверяющих в туалете и т.п. o Запрет проносить еду и питье (в том числе m&m). o Все телефоны и другие устройства выключаются и убираются или кладутся со специальными ярлычками на отведенный для них стол, который видят все тестируемые, чтобы они не волновались за свои вещи. o Обязательное предъявление документа с фотографией на входе. Меры по обнаружению o Анализ оценок, выставленных экспертом, o Анализ оценок студента при неоднократном прохождении теста. o Телефоны доверия, электронная почта доверия. o Внутренний статистический анализ результатов по группам, регионам и т.п. Меры по расследованию и искоренению o Беседа с пойманным на жульничестве. o Обращение в ФБР в случае подделки паспорта. o Система накопления штрафных очков центром тестирования, выдаваемых за нарушения персоналом центра режима безопасности. При накоплении большого штрафа центр тестирования может быть закрыт. Были судебные иски центров тестирования против закрытия, но ETS выиграла их все. 3. Политика ETS по работе с персоналом, Lewis Shumaker, старший советник по работе с кадрами В штате ETS 2500 человек, из них 65% женщин. 28% – не афро-американцы, испаноговорящие, выходцы из Латинской Америки, стран Азии. 10000 человек работают по внешним контрактам, в том числе, эксперты, разработчики тестов и др. Существует отдельная программа по обучению 25 черных профессоров, которые будут содействовать повышению справедливости тестирования представителей черной общины Америки. Обязательным в работе с кадрами является соблюдение законов ETS, подчинение законам штата и США, недискриминация женщин. Принципы работы менеджмента с персоналом Справедливость. 80% процентов всех групп (по полу, по цвету кожи, по социальному статусу и т.п.) должны участвовать в работе по любому направлению; Корректность. Менеджер должен уметь руководить людьми разного этнического, социального происхождения, разными группами людей; Учет индивидуальных особенностей. Необходимо учитывать индивидуальные способности каждого, не допускать дискриминации по возрасту, происхождению, инвалидности, сексуальной ориентации, семейному положению и т.п. Правила компании Ко всем работникам относиться одинаково с почтением; Уважать культуру, обычаи, ценности других. 14 Сотрудники знакомятся с перечнем всех правил при приеме. Правила опубликованы в Интернете. Проблемы найма персонала Предсказание необходимости найма новых сотрудников; Небольшое количество специалистов в данной области; Конкуренция работодателей; Дороговизна жизни в Принстоне; Наличие стереотипов у менеджмента: считается, что надо брать в основном выпускником Массачусетского университета. Политика найма Наблюдение за интервью, изучение поведенческих навыков принимаемого; Высокая зарплата; Помощь с переездом; 10-15% премии; Декретный отпуск 6 месяцев Планирование найма. Ежегодное обновление персонала ETS составляет 8-9%. 4. О федеральной программе «Ни одного отстающего» и о работе департамента общественных связей, Thomas Ewing, директор департамента общественных связей ETS Общие сведения о программе По акту 2001 года министерство образования США начало реформу, основной целью которой является инициировать во всех штатах страны, а также на уровне отдельных территориальных единиц программу повышения качества образования отдельных групп учащихся, на образование которых государственные школы не обращали особого внимания, т.е. уменьшить различия в образовательных достижениях сильных и слабых учащихся. По данному акту весной 2006 года все штаты страны должны были оценить достижения образовательных стандартов по математике и чтению всех учащихся с 3 по 8 класс, а также учащихся одного старшего класса. К 2008 году предложено проведения тестирования на достижение стандартов по естествознанию учащихся трех параллелей (по одной из начальной, основной и старшей школы). Всего по разным предметам разработано 40 стандартов NCLB, соответствие которым измеряется в рамках данной программы в каждом штате независимо друг от друга. Каждый штат устанавливает свои критерии достижения стандарта. Всего 5 штатов отвечают требованиям всех 40 стандартов. В половине штатов есть школы с плохой успеваемостью. Одно из обязательных условий программы – проведение регулярных измерений и публикация результатов. Программа считается идущей успешно, если по каким-то параметрам есть улучшение. Смысл программы не столько в выполнении конкретного стандарта, сколько в демонстрации прогресса. В настоящее время 23 штата страны еще не проводят полномасштабные тестирования в соответствии с актом 2001 года. Реализация программы Школа выбирает набор параметров, по которым она проводит измерение. Главное – чтобы дети показывали положительную динамику по выбранным параметрам. Параметры и описание результатов должны быть понятны родителям. Иногда это организовано в виде повторяющегося несколько раз теста. Сейчас больший упор идет на промежуточный контроль. 15 В 43 штатах учителям выдаются лицензии с учетом результатов тестирования. Данные измерений предоставляет сама школа. Существуют организации, которые занимаются сбором и публикацией сведений о школах для родителей. ETS активно вовлечена в программу. Она готовит методики для переподготовки учителей (800-900 тыс. в год, обучение ведут другие компании), разработку тестов по предметам (150). Трудности и противоречия программы Мало штатов серьезно занимаются переподготовкой учителей Неравенство штатов и школ, связанное с зависимостью от объема поступлений налогов в штате Программа недостаточно гибкая к типам школ, знанию языков школьниками Правительство не предоставляет достаточно денег на программу Много тестирования, мало преподавания. Натаскивание на тесты. Как результат введения программы во многих школах стали ориентировать содержание обучения на содержание тестов, а также на проведение дополнительного тестирования для подготовки учащихся к сдаче тестов NCLB. Общественное мнение По результатам одного из опросов по школьной реформе большинство населения их поддерживает. То же можно сказать про большинство групп населения. Только одна группа не поддерживает – учителя – 75% против, поскольку реализация программы очень трудоемка для них, отнимает много времени и все равно может привести к потере работы, если в школе не будет улучшений. По другому опросу большинство готово платить больше налогов, чтобы улучшить образование, и согласно перераспределять их в пользу более бедных штатов. О работе департамента общественных связей ETS Число работников департамента – 90-100 человек. Это писатели, дизайнеры, художники, маркетологи, строители. Бюджет примерно $10-12 млн. Задача департамента – представить ETS публике. Стандартная реклама (ТВ и др.) не используется. Но вместо этого организуются публикации в прессе и Интернет, конференции с выделением имени ETS, проводятся беседы с репортерами, пишущими на образовательную тематику. Все просьбы о контактах сотрудников с прессой проходят через директора департамента, кроме случаев интервью в зарубежных командировках и т.п. Если сотрудники хотят пообщаться с прессой, дирекция не против, но сотрудники должны предупредить об этом. Это правило есть в общем перечне правил поведения сотрудников. Эксперты ETS в предметных областях инструктируются, как разговаривать с прессой. 12 мая, г. Нью-Йорк, Совет колледжей, Городской университет Нью-Йорка Делегация ФИПИ была первой российской делегацией в Совете колледжей. С американской стороны на встрече присутствовали сотрудники Офиса академических инициатив и разработки тестов, Office of Academic Initiatives & Test Development (Kathleen Williams - вице-президент; Nancy Rubino – ассоциированный директор; James Daubs, старший специалист по содержанию, английский язык; Robin O’Callaghan - старший специалист по содержанию, математика; Ed Hardin - специалист по содержанию), исполнительный директор отделения исследований в области высшего образования, Higher Education Research – Amy Schmidt; директор отделения планирования и управления грантами, Grants Planning & management – Laren Herko; главный психометрик отделения 16 исследований, Research – Jerry Melican и директор международной службы проведения тестов AP, AP International Services - Bob Diyanni. На встрече рассматривались следующие вопросы: - краткая история деятельности Совета колледжей (данная информация представлена выше). - как определяются направления деятельности Совета в плане содержания тестирования и направлений совершенствования Решение о том, какие тесты разрабатывать (SAT или AP) и как их совершенствовать основано на том, что изучается в американских школах на старшей ступени. Это проявилось в разработке тестов, проверяющих овладение азиатскими языками (китайский, японский и др.), во введении теста SAT Subject Tests, оценивающего знания по отдельным предметам и позднее в разработке курсов и тестов AP. Последние изменения в тесте SAT проявились в добавлении к тесту отдельной части, оценивающей умение написать небольшое сочинение, а также в исключении заданий определенного формата. Основная деятельность Совета направлена на то, чтобы сделать переход из среднего образования к высшему наиболее справедливым и прозрачным. Реализация этой задачи проявилась не в увеличении объема тестирования, а в разработке курсов для учащихся старшей ступени школы, которые позволяют улучшить их подготовку и тем самым увеличить их шансы для поступления в вузы, а также в оказании услуг по введению и преподаванию этих курсов (проекты Maine, AP, Spring Board, New-York City Public Schools). При условии, если процесс поступления в вузы не изменится значительно, можно прогнозировать, что тесты или экзамены, проводимые Комитетом, сильно не изменятся. Вероятнее всего они будут проводиться на компьютерах, но не через Интернет в связи с необходимостью обеспечения безопасности, а в специальных центрах. как обеспечивается баланс между оценкой фактических знаний и оценкой компетентностей Тест SAT оценивает критическое мышление. Он является единым для всех измерителем. Для оценки освоения предметных знаний используются другие тесты: SAT Subject Tests, в которых используются подходы схожие с российскими: в одном тесте оценивается освоение предметным содержанием в процессе решения задач разной сложности, требующих различных интеллектуальных умений. Экзамен AP также оценивает освоение предметного содержания и показывает, что учащийся при обучении в школе прошел углубленный курс по одному из школьных предметов. Но этот экзамен, как и SAT Subject Tests не может использоваться в качестве единого теста для поступления в вузы, так как не все их сдают. В старшей школе в основном используются предметные итоговые тесты для оценки освоения содержания изученного курса. - компьютерное тестирование (КТ) Несколько лет тому назад проводился эксперимент по адаптивному тесту SAT, в котором задания, предъявляемые тестируемому, зависели от того, как были выполнены предшествующие задания. Тест проводился на компьютере. Преимуществом данного теста была более эффективная оценка «истинного балла» тестируемого (использовалось только около половины заданий из обычного письменного теста). Недостатком КТ являются финансовые затраты и доступ к компьютерам. Обычный тест SAT проводится 7 раз в год по субботам в одно и то же время в специальных центрах (обычно в средних школах). В настоящее время в средних школах нет достаточного числа компьютеров для проведения теста SAT в компьютерной форме. «Компьютерное время» в коммерческих тестовых центрах очень дорогое. Компьютерное тестирование можно проводить в любое время «по требованию», однако было выявлено, что учащиеся очень заняты после школы и согласны проходить компьютерный SAT только по субботам. - информационная безопасность при проведении тестирования Для обеспечения информационной безопасности SAT: контролируется «движение» тестовых материалов до и после проведения тестирования; проводится контроль за 17 идентификацией экзаменуемых; перемешиваются варианты тестов, чтобы исключить списывание; введены специальные правила по поводу того, что можно пронести в аудиторию на тестирование и что можно использовать на тестировании; собираются черновики у всех тестируемых для возможного анализа, если появятся подозрения на списывание. Значительная роль в обеспечении информационной безопасности отводится администраторам, проводящим тестирование. ОСНОВНЫЕ ВЫВОДЫ И РЕКОМЕНДАЦИИ 1. Поступление в высшие учебные заведения. Полного аналога российским обязательным традиционным выпускным или вступительным экзаменам, а также ЕГЭ в США нет. При поступлении во все вузы США требуются результаты независимых тестов SAT или ACT, а также информация о школьной успеваемости поступающего за последние 4 года обучения. Портфолио обычно не предъявляется при подаче документов. Таким образом, обеспечивается оптимальное соотношение между «внешней» и «внутренней» оценкой образовательных достижений учащихся, а также формирование положительной мотивации обучения в школе и традиционных отношений между учащимися и учителями. Данный опыт заслуживает особого внимания для нормализации отношений между сферой образовательных услуг в России и ее потребителями. 2. Разработка тестов. Процесс разработки теста (по своей структуре и содержанию на каждом из этапов работы) имеет очень много общего с технологическим циклом подготовки КИМ для ЕГЭ, реализуемым ФИПИ. Представляется важным подробнее проанализировать этап разработки тестов, связанный с отбором комитета по планированию КИМ и его функциональными обязанностями, т.к. именно этот этап является одним из основополагающих этапов разработки тестов. Специалистам ФИПИ целесообразно рассмотреть более детально теоретические подходы и предложенные модели процедуры разработки тестов, основанных на доказательствах (Evidence Centered Design). Разработчикам тестовых заданий (предметным группам, участникам целевого заказа) целесообразно обменяться опытом обеспечения конструктной валидности при разработке заданий. Целесообразно использовать опыт статистического анализа и оценки качества заданий, подлежащих включению в тест. Представляется целесообразным проведение апробации тестовых заданий в режиме экзамена, т.е. включение апробационных заданий в КИМ ЕГЭ. Подобная практика, кроме США, существует и в ряде других стран, например, в Нидерландах. Целесообразно обсудить практику, используемую в ETS, при обнаружении ошибок в заданиях: задание исключается из обработки и шкалирования всех вариантов. 3. Проведение тестирования и обработка результатов Представляют интерес работы ETS и программное обеспечение «CRITERION» и «OSN», связанные с оценкой работ тестируемых в режиме он-лайн. Данная система является более экономичной по сравнению с проверкой ответов, представленных на распечатанных бланках, дает возможность постоянно контролировать экспертов, оперативно обрабатывать результаты тестирования. Целесообразно начать разработки системы проверки заданий с развернутым ответом в режиме он-лайн с использованием разработанной в ФИПИ системы «Эксперт ЕГЭ» и провести ее экспериментальную проверку в 2-х регионах России в 2007 году при проверке работ по математике и русскому языку. 4. Национальный мониторинг 18 Проблемам оценки качества образования придается приоритетное значение в образовательной политике США. В стране создана система национального мониторинга NAEP, участие штатов в этой программе финансируется из федерального бюджета. Для обеспечения равного доступа к качественному образованию проводится реформа «Ни одного отстающего, NCLB». Российским специалистам целесообразно изучить различные аспекты организации и проведения мониторинга (методологические, содержательные, организационные, технологические и др.) для учета перспективных разработок и возможных рисков при создании общероссийской системы оценки качества образования. При организации общероссийских исследований качества образования целесообразно учитывать рекомендации американских коллег о необходимости лидирующей роли федеральных структур, обеспечения контроля за качеством тестирования и объединение (сотрудничество) регионов в реализации программ тестирования. 5. Компьютерное тестирование На сегодняшний день компьютерное тестирование, при котором выполнение заданий и их проверка происходит с помощью компьютера, не имеет широкого распространения. Плюсы компьютерного тестирования: гибкость заданий, скорость, точность, дешевизна автоматизированной проверки. Минусы: мало компьютеров (что требует увеличения числа вариантов для тестирования), дискриминация тестируемых по степени их владения компьютером, низкая компьютерная грамотность учителей, дороговизна разработки компьютерных тестов. Однако, по мнению некоторых экспертов, за этим видом тестирования – будущее. Сравнения результатов бумажного и компьютерного тестирований проводились, но немного. Незначительное расхождение было получено при высокой пользовательской квалификации тестируемых и более значительное – при низкой. 6. Перспективные исследования. По мнению американских коллег, перспективными исследованиями в области тестирования являются: компьютерное тестирование с интерактивной средой измерения, разработка критериально-ориентированных тестов, результаты которых описывают, что знает и не знает тестируемый, в чем ему можно помочь; разработка нового направления когнитивных тестов. Специалистам ФИПИ целесообразно более подробно познакомиться в данным опытом. 19 Приложение 1. Программа визита специалистов ФИПИ в Соединенные штаты Америки по Приглашению American Councils с 04.05.06 по 14.05.06 Четверг 4 мая Встреча делегации в Вашингтонском Национальном Аэропорте, трансфер в the Embassy Suites Hotel (1250,22 улица, Вашингтон 20037 округа Колумбия, тел. 202-857-3388). Пятница 5 мая 20:23 6:30-9:00 9:30 Завтрак в отеле Встреча с представителем АС, сопровождение делегации в офис АС Мониторинг и национальная оценка 9:30-11:30 11:30 11:45 12:45 13:30 14:00 18:00 Заседание: открытие: доктор Д.Дэвидсон президент АС, выступают: А.Ершов –директор ФИПИ Кэрол Близ - Временный директор, Центра Международного Образования College Board, U.S.A.- TBC Сара Мид - Представитель Прогрессивного Института Политики, U.S.A – TBC Перерыв Выступление и презентация AP тест по русскому языку (профессор Маша Лекик, Университет Мерилэнда) Обед Отъезд делегации в GWU Встреча со специалистом GWU Thadissa Fulwood (Помощник директора Undergraduate Admissions) Телефон: 202-994-6040 Ужин с Дэном Дэвидсоном и Гарвордом Эверсоном 6-7 мая Культурная программа, работа по индивидуальному плану Понедельник 8 мая Мониторинг и национальная оценка 9:00 10:30 10:45 12:15 13:30 15:00 16:30 Встреча с Доктором Арнольдом Голдштейном (управляющий проекта, Национальный Центр Образовательной Статистики, Министерства Образования США, Отдел Исследования и усовершенствования Образования) Перерыв Встреча с доктором Ховардом Эверсоном – (исполнительный директор, NAEPESSI, американский Институт Исследования) Обед (поставка) Доктор Стивен Нант (Министерство образования США) Завершение работы Отъезд в Принстон 20 ETS- Global Division Вторник 9 мая (комната L164) 8:30 Отъезд из гостиницы AmeriSuites Hotel в ETS 9:00-9:30 Приветствие и Вступление (Видео фильм: «ETS вчера и сегодня») Золен Хил, менеджер Global Institute 9:30-10:30 «Процесс разработки тестов», Лариса Конвэй (специалист по оценке) 10:30-10:45 Перерыв 10:45-12:00 «Надежность и валидность» Макл Зикай (старший директор по оценке) 12:00-13:30 Обед «L-café» 13:30-15:30 «Справедливость тестирования и DIF» 15:30-15:45 Перерыв 15:45-16:45 «Разработка тестирования, основанное на доказательствах» (Evidence Centered Design) Рассел Алмонд (старший научный специалист по исследованиям) 16:45 Отъезд в гостиницу Среда 10 мая (комната L159) 8:30 Отъезд из гостиницы AmeriSuites Hotel в ETS 9:30-10:30 «Оценка продуктивной деятельности тестируемых (Performance assessment)» Андреа Ферсей (старший программный администратор NAEP) 10:30-10:45 Перерыв 10:45-12:00 продолжение доклада 12:00-13:30 Обед «Conant Cafe» 13:30-15:00 «Проверка работ» Андреа Ферсей (старший программный администратор NAEP) 15:00-16:00 «Система Безопасности» Рэй Никосия (руководитель центра профессиональных стандартов и жалоб) 16:15-17:00 «Программа Criterion» 17:00 Отъезд в гостиницу Четверг 11 мая 8:30 Отъезд из гостиницы AmeriSuites Hotel в ETS 9:00-10:30 OSN (система проверки в режиме он-лайн), Филип Сервис (координатор по оценке) 10:30-10:45 Перерыв 10:45-12:00 Безопасность при тестировании, Ray Nicosia, исполнительный директор профессиональных стандартов и жалоб. 12:00-13:30 Обед 13:30-15:00 Политика ETS при работе с персоналом, Lewis Shumaker, старший советник по работе с кадрами Разработка тестов, Луис Сальдивие, специалист по оценке 15:00-15:15 Перерыв 15:15-16:00 О федеральной программе «Ни одного отстающего», Thomas Ewing, директор департамента общественных связей ETS 16:00-16:30 «Завершение программы, вручение Свидетельств» Золен Хил (менеджер Global Institute) 16:30 Отъезд в гостиницу 21 Приложение 2 Список полезных веб-сайтов американских организаций, работающих в сфере образовательного тестирования, и отдельных программ 1. Министерство образования США - http//nces.ed.gov 2. Совет колледжей (College Board) – www.collegeboard.com 3. Национальная программа мониторинга NAEP (National Assessment of Educational Progress), известная также как “Nation’s Report Card” – http//nces.ed.gov.nationsreportcard 4. 22