Контент-анализ ресурсов Интернет Сегодня весьма актуальной является задача мониторинга ресурсов Internet, которая тесно связана с достаточно популярным в последние десятилетия контент-анализом. Это перспективное направление развития систем сетевой интеграции рассматривается сегодня многими экспертами как контент-мониторинг, появление которого вызвано, прежде всего, задачей систематического отслеживания тенденций и процессов в постоянно обновляемой сетевой информационной среде. Контент-мониторинг — это содержательный анализ информационных потоков с целью получения необходимых качественных и количественных срезов, который производится постоянно, т.е. на протяжении не определяемого заранее промежутка времени. Важнейшей теоретической основой контент-мониторинга является контент-анализ, — понятие, достаточно "заезженное" социологами. Контент-анализ начинался как количественно-ориентированный метод анализа текстов для изучения массовых коммуникаций. Впервые этот метод был применен в 1910 году социологом Максом Вебером (Max Weber), чтобы проанализировать охват прессой политических акций в Германии (рис. 5.2). Американский исследователь средств коммуникации Гарольд Лассвелл (Harold Lasswell) в 30-40-е годы использовал подобную методику для изучения содержимого пропагандистских сообщений военного времени. В 1943 году Абрахам Каплан (Abraham Kaplan) увеличил фокус контент-анализа от статистической семантики (/значения текстов) политических дискуссий до анализа значений символов (семиотики). Во время Второй мировой войны растущая популярность семиотики способствовала использованию качественно-ориентированного контент-анализа для изучения "идеологических" аспектов в таких жанрах, как телевизионные шоу и коммерческая реклама. Ряд современных исследований с применением методологии контент-анализа включает, наряду с анализом текста, и анализ изображений. Начиная с 60-х годов, с появлением средств авто матизации и текстов в электронном виде, получил на чальное развитие контент-анализ информации боль ших объемов — баз данных и интерактивных медиасредств. Традиционное "политическое" использование современных технологий контент-анализа дополнено неограниченным перечнем рубрик и тем, охватываю щих производственную и социальную сферы, бизнес и финансы, культуру и науку, что сопровождается большим количеством разнородных программных комплексов. При этом выделилось направление, полу чившее самостоятельное развитие — Data Mining, все еще не имеющее устойчивого русского терминаэквивалента. Так, даже выше в этой главе использова лись сразу два перевода этого термина: "добыча дан- Рис. 5.2. Макс Вебер ных" и "глубинный анализ данных". (1864-1920) Под Data Mining понимается механизм обнаружения в потоке данных интересных новых знаний, таких как модели, конструкции, ассоциации, изменения, аномалии и структурные новообразования. Большой вклад в развитие контент-анализа внесли психологические исследования в области феноменологии, ведущая идея которой заключается в обращении к каждодневному миру через различные явления (phenomena) в фактических ситуациях. С феноменологией неразрывно связаны имена ее основателя Эдмунда Хассерла (Edmund Husserl) и нашего современника Амадео Джиорджи (Amadeo Giorgi). Однозначная трактовка понятий необходима, прежде всего, в технических системах. Развитие технологических систем невозможно без стандартизации. В качестве примера можно привести операционную систему UNIX, определение стандартов на которую в рамках ISO (POSIX) привело к преобладанию клонов этой системы на серверных платформах. Понятие же контент-анализа, имеющее корни в психологии и социологии, сегодня пока не имеет однозначного определения. Это порождает ряд проблем, важнейшая из которых заключается в том, что программные системы, построенные на основе различных подходов к контент-анализу, будут несовместимы. Приведем лишь некоторые существующие определения контент-анализа. • Контент-анализ — это методика объективного качественного и систематического изучения содержания средств коммуникации (Д. Джери, Дж. Джери). • Контент-анализ — это систематическая числовая обработка, оценка и интерпретация формы и содержания информационного источника (Д. Мангейм, Р. Рич). • Контент-анализ — это качественно-количественный метод изучения документов, который характеризуется объективностью выводов и строгостью процедуры и состоит в квантификационной обработке текста с дальнейшей интерпретацией результатов (В. Иванов). • Контент-анализ состоит в нахождении в тексте определенных содержательных понятий (единиц анализа), выявлении частоты их встречаемости и соотношения с содержанием всего документа (Б. Краснов). • Контент-анализ — это исследовательская техника для получения результатов путем анализа содержания текста о состоянии и свойствах социальной действительности (Е. Таршис). Р Большинство из приведенных определений конструктивны, т.е. являются процедурными. Из-за разных начальных подходов они порождают различные, а порой и противоречащие друг другу алгоритмы. Принятые в современной литературе различные подходы к пониманию контент-анализа поддаются полностью оправданной критике. Так, высказываются сомнения в информационной насыщенности частотных характеристик в плане определения элементов, весомых с точки зрения содержания. Также подчеркивается игнорирование роли контекста. Однако, несмотря на многообразие трактовок контент-анализа, большое прикладное значение методологии все же позволяет избежать многих противоречий. Объединение средств и методов, их естественный отбор путем многократной оценки полученных результатов позволяют выделять и подтверждать знания, выявлять фактическую силу и полезность инструментария. Диапазон методов и процедур, касающихся самого процесса контент-анализа, весьма широк. К примеру, при подготовке исследования выполняются следующие действия: • описание проблемной ситуации, поиск цели исследования; • уточнение объекта и предмета исследования; • смысловое уточнение понятий; • эмпирическая интерпретация понятий; • описание процедур регистрации свойств и явлений; • предварительный целостный анализ объекта; • определение общего плана исследования; • определение типа выборки и т.д. Методы сбора данных также многообразны: • наблюдение; • анкетный опрос; • интервью; • телефонный опрос; • накопление совокупности писем; • получение потока документов Сети. Для отбора информации применяются такие методы: • гнездовой; • квотная выборка; • неслучайная выборка; f» метод нетипичных представителей; • метод "снежного кома"; • стихийная выборка; • случайная выборка; • одно- и многоступенчатая выборка; • районированная (расслоение) выборка; • систематическая выборка и т.д. В контент-анализе применяются такие математические методы, как: • дисперсионный анализ для выявления влияния отдельных, независимых факторов на наблюдаемый признак; • кластерный анализ для классификации объектов и описывающих их признаков; • логлинейный анализ для статистической проверки гипотезы о системе одновременных парных и множественных взаимосвязей в группе признаков; • причинный анализ для моделирования причинных отношений между признаками с помощью систем статистических уравнений; • регрессионный анализ для исследования регрессионной зависимости между зависимыми и независимыми признаками; • факторный анализ для получения обобщенной информации о структуре связи между наблюдаемыми признаками изучаемого объекта на основе выделения скрытых факторов; • корреляционный анализ для выявления зависимости между числовыми случайными величинами, одна из которых зависит и от ряда других случайных факторов.