Компьютерные методы обработки результатов анкетирования

реклама
КОМПЬЮТЕРНЫЕ МЕТОДЫ ОБРАБОТКИ РЕЗУЛЬТАТОВ
АНКЕТИРОВАНИЯ
Н.Д. Абдрахимова, И.Г. Яр-Мухамедов
ИИМОП КНУ (г. Бишкек)
В настоящее время наблюдаются определенные прогрессивные
тенденции в развитии образования. Они направлены на повышение степени
индивидуализации процесса обучения, внедрение активных методов,
обеспечивающих тесные обратные связи и адаптацию процесса к
возможностям и потребностям обучаемого. Второй момент связан с более
глубоким и оперативным анализом ситуации, не последнее место в котором
занимают методы анкетирования и обработки данных. Доклад посвящен
описанию ключевых моментов технологии подготовки, анализа и
интерпретации результатов анкетирования.
Технологический процесс подготовки и проведения исследования
включает ряд разнородных этапов. На диаграмме (см. рис. 1) представлены
его основные функции.
АНКЕТИРОВАНИЕ
ПОСТАНОВКА
ВЫБОР СРЕДСТВ
СБОР ДАННЫХ
ОБРАБОТКА
ЦЕЛЕПОЛАГАНИЕ
СОЗДАНИЕ АНКЕТЫ
РУЧНОЙ
ГРУППИРОВАНИЕ
ОГРАНИЧЕНИЕ
ВЫБОР МЕТОДА
МАШИННЫЙ
АНАЛИЗ СВЯЗЕЙ
ИНТЕРПРЕТАЦИЯ
ВИЗУАЛИЗАЦИЯ
Рис. 1. Основные функции системы анкетирования
Для успеха любого начинания необходимо прежде всего четко
определить цели. Как правило, анкетирование проводится для достижения не
одной, а нескольких целей. Важности целей могут быть различными.
Некоторые из них могут противоречить друг другу. Необходимо
сформулировать все цели и увязать их в единую систему. В противном случае
есть риск недоучесть возможные ограничения, пропустить важные вопросы и,
в конечном счете, получить не совсем то, что хотелось бы изначально.
Анкетирование в целом может рассматриваться как решение некоторой
задачи. Достижению целей препятствуют наши ограниченные возможности.
Они касаются временных ресурсов, квалифицированных кадров, денежных
средств и т.п. Поэтому степень возможного достижения целей должна быть
согласована с имеющимися ограничениями.
Выбор средств достижения целей фактически является этапом постановки
задачи исследования. Исходя из сформулированных целей и возможностей,
разрабатывается форма представления исходных данных (анкета) и
выбираются методы, которые могли бы быть применены для решения этой
задачи. Для повышения степени достоверности получаемых ответов и
обеспечения последующей эффективной машинной обработки желательно
придерживаться ряда простых, но очень важных правил. Они кажутся само
собой разумеющимися, однако на начальных этапах освоения методов
анкетирования не всегда удается выполнять их требования. При подготовке
студентов мы уделяем определенное внимание разбору живых примеров и
доводке вопросов и ответов до приемлемого состояния.
1. Анкета должна содержать небольшое число вопросов, чтобы время опроса
не превышало пределов времени, в течение которого опрашиваемый в
состоянии сосредоточиться на одной теме и заниматься одним видом
деятельности.
2. Формулировка вопросов должна быть предельно простой, конкретной и
ясной.
3. Лучше всего, если вы предложите готовые варианты ответов (закрытая
система).
4. Варианты ответов должны покрывать все возможные трактовки и
допускать ранжирование по степени наличия или отсутствия некоторого
свойства, ассоциируемого с данным вопросом. Например, на вопрос "Как вы
оцениваете качество преподавания в вашем учебном заведении по сравнению
с преподаванием в других заведениях города?" могут быть даны ответы:
хуже; немного хуже; примерно так же; немного лучше; существенно лучше.
Такой набор ответов легко переводится в ранговую числовую шкалу и
результаты
анкетирования
могут
быть
эффективно
обработаны
программными средствами.
5. Из числа первоначально подготовленного списка вопросов необходимо
выбросить те, на которые невозможно получить достоверных ответов.
Например, трудно доверять полученным данным, если в анкете задается
прямой вопрос девочкам о том, курят ли они, или если детей просят сказать,
уважительно ли они относятся к старшим. В крайнем случае, но это
достаточно сложно, требуется переформулировать подобные вопросы так,
чтобы они казались нейтральными, либо сформулировать косвенные
вопросы, на основе которых можно было бы сделать желаемые выводы.
6. Из списка вопросов обязательно следует убрать такие, на которые все
опрашиваемые будут давать один и тот же ответ, независимо от того,
положительный он либо отрицательный. Такие вопросы неинформативны, по
крайней мере на выбранном множестве анкетируемых. Например, в группах
одновозрастных учеников вопрос о возрасте является излишним, так же как и
вопрос о поле, если опрашиваются только мальчики.
7. Вопросы, ответы на которые не удается ранжировать, обычно являются
комплексными и их желательно разбить на отдельные подвопросы,
предполагающие утвердительный или отрицательный ответ, либо
допускающие ранжирование. К примеру вопрос о занятиях в свободное время
может предполагать самые разнообразные ответы. Его следует разделить на
несколько более конкретных с учетом целей исследования: насколько
интенсивно вы используете Интернет для общения? (чатом не пользуюсь,
включаю его во время выполнения работы; нередко специально выхожу в
Интернет для общения).
Разработка анкеты непосредственно связана с выбором методов
последующей обработки. Как мы уже отметили выше, ранжируемость
ответов является непременным условием для применения численных методов
обработки данных. Значения лингвистических переменных, преобразованные
в числовые, допускают применение практически любых известных методов.
На самом верхнем уровне в их составе можно выделить методы
классификации и методы выявления закономерных связей (см. рис. 2).
Методы систематизации (группировки и классификации) лежат в
основе любой науки. Говорят, что наука становится таковой лишь на
известной ступени систематизации знаний. Химия приобрела определенный
статус с построением классификации элементов и открытием периодического
закона. Биология обрела теоретические основания после
приемлемой
систематизации живого, на базе чего удалось выдвинуть и обосновать
гипотезу происхождения видов.
Компьютерные (формальные) методы классификации рассматриваются
дисциплиной, называемой кластерным анализом. Под кластером понимают
совокупность объектов, сходных друг с другом либо расположенных близко
друг к другу. При этом объекты, принадлежащие разным кластерам, должны
быть несходны либо далеки друг от друга. Для вычисления значений
соответствующих мер сходства либо расстояния исходные данные об
объектах интерпретируют как точки или векторы в многомерном
признаковом пространстве. Размерность пространства определяется
количеством вопросов в анкете. Исходные данные принято представлять в
виде таблицы "объект-свойство", где в боковинке представлены объекты
(анкетируемые), а в шапке – свойства (вопросы).
МЕТОДЫ АНАЛИЗА
СИСТЕМАТИЗАЦИЯ
ВЫЯВЛЕНИЕ ЗАКОНОМЕРНОСТЕЙ
ГРУППИРОВАНИЕ
ДИСКРИМИНАНТНЫЙ АНАЛИЗ
КЛАСТЕРИЗАЦИЯ
РЕГРЕССИОННЫЙ АНАЛИЗ
ДИСПЕРСИОННЫЙ АНАЛИЗ
ФАКТОРНЫЙ АНАЛИЗ
Рис. 2. Формальные методы анализа данных
Кластерный анализ является развитием и обобщением традиционных методов
группирования. Он позволяет получать группировки сразу по многим
признакам
одновременно
(многомерное
группирование).
Методы
дисперсионного анализа позволяют дополнить результаты применения
перечисленных методов числовыми оценками, важными с точки зрения
обоснования и интерпретации результатов обработки.
Методы выявления закономерных связей мы условно разделили на три
группы. Дискриминантный анализ включает в свой состав подзадачи выбора
информативных признаков, выбора типа дискриминантной функции,
идентификации ее параметров, интерпретации и, наконец, применения
полученной функции к распознаванию объектов либо ситуаций. В отличие от
регрессионного анализа, в дискриминантном анализе зависимая переменная
может иметь одно из двух возможных значений, например 1 или 0, которые
показывают принадлежность объекта классу (1 – принадлежит, 0 – не
принадлежит). Если подлежащих распознаванию классов несколько, то
обычно строят несколько дискриминантных (распознающих) функций по
числу классов.
Группа методов регрессионного анализа используется для выявления
расчетных взаимосвязей между независимыми и зависимой переменными.
Традиционный
метод
наименьших
квадратов
(МНК)
позволяет
идентифицировать параметры моделей именно такого типа. Следует
отметить, что выявляемые с его помощью связи нельзя трактовать как формы
проявления общих законов. Следствие этого заключается в частности в том,
что регрессионную модель нельзя преобразовать в обратную (выразить
независимую переменную через зависимую). Тем не менее для построения
частных моделей с успехом могут быть применены функции регрессионного
анализа, предусмотренные во многих пакетах программ общего назначения
(электронные таблицы).
Модели и методы факторного анализа основаны на гипотезе
существования небольшого числа скрытых (непосредственно не
наблюдаемых)
факторов,
составляющих
сущность
явления
и
обусловливающих все наблюдаемое разнообразие. Предполагается наличие
линейной связи между показателями (характеристиками) и факторами,
причем количество факторов существенно меньше числа наблюдаемых
переменных. Решение задачи факторного анализа чаще всего сводится к
расчету коэффициентов матрицы факторных нагрузок (коэффициентов
линейной модели) и нахождении наиболее правдоподобной интерпретации.
Для облегчения процедуры интерпретации обычно используют методы
вращения (ручные, человеко-машинные либо реализуемые полностью
программно).
Для целей углубленного исследования методы факторного анализа
являются наиболее подходящими. Суть исходной гипотезы представлена на
диаграмме (см. рис. 3)
Рис. 3. Графическое представление исходной гипотезы факторного анализа
Суть гипотезы как нельзя лучше соответствует существу познания,
направленного на выяснение внутренних закономерностей через наблюдение
и анализ явления.
Сбор данных может выполняться вручную либо с помощью программных
средств. Широкое распространения Интернет и соответствующих средств
просмотра гипертекста, а также развитие гипертекстовых и скриптовых
языков делают достаточно удобным и доступным разработку и использование
гипертекстовых приложений для целей сбора и обработки данных. Причем
разработку компьютерных анкет (форм для ввода данных) можно
осуществлять в обычном текстовом редакторе, входящем в состав офисного
пакета. После сохранения формы в формате гипертекста требуется добавить
функцию-обработчик, которая будет производить считывание введенных
данных, их проверку и запись в файл.
В случае ориентации на использование существующих универсальных
офисных пакетов сбор (или ввод данных) можно производить с помощью
пакета электронных таблиц. Отсутствие специальных программных средств
для обработки данных или возможностей их создания не является
непреодолимым препятствием. Последовательная конкретизация целей и
тщательный подбор методов позволяют, как правило, получить хорошие
результаты. Для примера рассмотрим задачу классификации студентов в
разрезе двух факторов: общего уровня способностей и гуманитарной (или
естественно-научной) ориентации интеллекта. Эта задача являет собой
классический пример задачи факторного анализа. Исходные данные задаются
таблицей "объект-свойство". В качестве объектов рассматриваются учащиеся
или студенты, свойствами являются показатели успеваемости по различным
предметам.
При использовании методов факторного анализа последовательность работ
может быть следующей.
1. Расчет значений статистической меры сходства между признаками на
множестве заданных объектов (расчет, к примеру, коэффициентов
корреляции между показателями успеваемости по различным предметам).
2. Обращение знаков (при использовании центроидного метода
факторного анализа).
3. Редуцирование матрицы корреляций (оценка общностей).
4. Расчет нагрузок на первый фактор.
5. Расчет матрицы корреляций, объясняемых первым фактором.
6. Расчет матрицы остаточных корреляций (разности исходных и
объясненных корреляций).
7. Обращение знаков.
8. Редуцирование матрицы корреляций.
9. Расчет нагрузок на второй фактор.
10. Отображение множества объектов в множество точек на плоскость
двух факторов.
11. Вращение осей координат и интерпретация факторов.
Упрощенный метод анализа позволяет получить очень похожие
результаты значительно более простым путем. Последовательность действий
опишем следующей последовательностью шагов.
1. Рассчитываем среднюю оценку каждого учащегося по всему множеству
предметов. Она характеризует общий уровень успеваемости.
2. Отдельно помечаем все предметы, имеющие гуманитарную
направленность, и отдельно – имеющие естественнонаучную.
3. Рассчитываем среднюю оценку каждого учащегося по группе
гуманитарных и отдельно по группе естественнонаучных дисциплин.
4. Рассчитываем отношение средней гуманитарной оценки к средней
естественнонаучной (или наоборот) для каждого из учащихся. Получим
показатель гуманитарной (естественнонаучной) ориентации интеллекта.
5. Рисуем две координатные оси. Одну – для среднего балла, вторую – для
показателя направленности. Откладываем значения координат и рисуем
точки для каждого из объектов. Получаем прекрасное средство для
визуальной группировки (классификации) учащихся в разрезе двух основных
факторов.
Второй пример простого, но эффективного метода анализа касается
выявления тенденций изменения успеваемости. Исходные данные
необходимо представить таблицей, строки которой соответствуют учащимся,
а столбцы – периодам времени, упорядоченным в порядке возрастания
(хронологически). Применение функции ТЕНДЕНЦИЯ пакета электронных
таблиц позволяет определить тренд изменения успеваемости. Если требуется
получить аналитическое и числовое выражение тенденций, может быть
использована функция ЛИНЕЙНО. Она позволяет рассчитать коэффициенты
линейного уравнения регрессии. В нашем случае это коэффициенты
зависимости успеваемости от времени. Если коэффициент при независимой
переменной является отрицательным - тангенс угла наклона прямой
(тенденции) меньше нуля, то для этой группы учащихся требуется
дальнейший содержательный анализ причин снижения успеваемости.
Таким образом, применяя общедоступные средства, можно произвести
классификацию учащихся по наклонностям, по успеваемости, по тенденциям
ее изменения во времени, а также по многим другим, как простым, так и
комплексным признакам.
Необходимо отметить неоспоримые достоинства упрощенных методов
анализа. Во-первых, сама по себе простота и наглядность процедур и
результатов значительно облегчают процессы интерпретации. Во-вторых, для
их проведения достаточно общедоступных и общеизвестных программных
пакетов. В-третьих, практика их применения формирует базу для освоения и
использования более сложных и изощренных методов и, при необходимости,
программных средств специального назначения.
Для выявления закономерных связей (построения обобщенных
моделей) могут использоваться методы ортогональной регрессии.
Альтернативой факторному анализу в определенной мере является
компонентный анализ, не требующий наличия исходной гипотезы. Из числа
сложных методов следует упомянуть такие, как объективный системный
анализ (методы комплексного решения задач идентификации как структуры,
так и параметров сложных моделей регрессионного типа), искусственные
нейронные сети, генетические алгоритмы, а также целый ряд специфических
методов многомерного шкалирования, обработки качественных данных и
экспертных оценок.
Скачать