XIII РОССИЙСКАЯ КОНФЕРЕНЦИЯ С УЧАСТИЕМ ИНОСТРАННЫХ УЧЕНЫХ "РАСПРЕДЕЛЕННЫЕ ИНФОРМАЦИОННЫЕ И ВЫЧИСЛИТЕЛЬНЫЕ РЕСУРСЫ" (DICR'2010) Исследование строения и динамики развития научного веб-пространства на примере СО РАН Клименко О.А. Петров И.С. Новосибирск, 30 ноября - 3 декабря 2010 г. Введение • Проблема исследования научного вебпространства является актуальной в связи со стремительным развитием сети интернет и научных ресурсов. В частности, эти исследования позволяют определить научные связи организации, ресурсы, которые наиболее интересны в научном сообществе, направления перспективных исследований. Веб-пространство • Под веб-пространством мы понимаем совокупность документов, представленных в сети Интернет и соединенных ссылками. • Веб-пространство - новый тип информационной системы без централизованного контроля, без координированного индексирования содержания. • Однако веб-пространство - не хаотическая система, в нем происходит самоорганизация в группы. Связи между документами устанавливаются с помощью ссылок. Изучение этих ссылок позволяет определить устройство веб-пространства. Обзор текущих исследований • Исследования веб-пространства ведутся лабораторией Cybermetrics Lab, которая принадлежит Consejio Superior de Investigaciones Cientificas – крупнейшему исследовательскому центру Испании. http://www.webometrics.info • Другим центром исследования веб–пространства является Statistical Cybermetrics Research Group, на базе научной школы информационных технологий Вулвергемптонского университета, Великобритания. • В России исследования проводятся в Институте прикладных математических исследований Карельского научного центра РАН. http://webometrics.krc.karelia.ru/ Методы исследования веб-пространства • Первый подход заключается в использовании возможностей поисковых машин, таких как Google, Yahoo, и др. • Второй подход состоит в анализе данных с помощью методов вебометрики. • Третий подход связан с написанием своей программыкрауера, которая путём обхода и анализа всех страниц на заданном множестве сайтов, выявляет связи между элементами множества. Результаты работы • В процессе работы было написано несколько версий краулера. Сначала однопоточная версия, потом многопоточная, где одновременно обрабатываются все сайты. • Была разработана структура хранения данных на основе файлов, для экономии ресурсов системы. • В последней версии программы учитываются только уникальные гиперссылки. • Программа имеет большую точность работы. • Краулер находится в стадии тестирования, но уже сейчас им удобно пользоваться, и его может использовать любой исследователь. Результаты работы • На основе собранных данных был построен ориентированный граф взаимосвязей. В этом графе G (V, E) узлы соответствуют организациям. Дуга (u, v) E; u, v V, если существует страница на сайте организации u, на которой находится гиперссылка на сайт организации v. На множестве дуг графа G также определено отображение NE: E → N +. Результаты работы • Построены графы взаимосвязей: Всех организаций СО РАН Отдельные графы для каждого из научных центров СО РАН Отдельные графы для каждого из направлений научной деятельности Отдельные графы для интеграционных проектов СО РАН • Было выявлено, что некоторые организации взаимно ссылаются друг на друга, другие организации имеют множество исходящих ссылок, третьи изолированы, а четвертые имеют много входящих ссылок, что говорит о ценности информации, размещенной на сайте. Результаты работы • Дополнительную информацию можно извлечь, используя поиск по ключевым словам, которые присутствуют в ссылках и заголовках страниц. • На графах ясно видно какие сайты хорошо представлены в сети интернет, а какие слабо. Более того, наглядно видно как сайты различных организаций взаимодействуют друг с другом, и на основе этого можно сделать выводы, что в данный момент взаимодействие организаций СО РАН достаточно слабое. 0 Публикации • Клименко О.А., Петров И.С. Исследование строения и динамики развития научного Вебпространства на примере СО РАН // Труды XVI Байкальской Всеросийской конференции "Информационные и матетматические технологии в науке и управлении". Часть III. Иркутск: ИСЭМ СО РАН, 2010. - 92-97с.