Построение наукометрического индекса, устойчивого к спаму Докладчик: Александр Пироженко Структура доклада Историческая справка Обзор существующих методов Описание предложенного метода Технические детали Структура доклада Историческая справка Обзор существующих методов Описание предложенного метода Технические детали Историческая справка Первый индекс цитирования (Shepard Citations) – 1873г Область применения – юриспруденция Задача – упрощение поиска релевантных документов в условиях прецедентного права Поддерживается и активно используется до сих пор Историческая справка Science Citation Index (SCI) – 1960г ◦ Создан в Институте научной информации (ISI) ◦ Представляет из себя библиотеку входящих и исходящих ссылок для статей из >150 научных дисциплин ◦ В настоящее время поддерживается Thomson Reauters и используется для подсчет импакт-фактора Структура доклада Историческая справка Обзор существующих методов Описание предложенного метода Технические детали Импакт-фактор Создан в 1960 и поддерживается ISI (ныне подразделение Thomson) Изначально предлагался для оценки важности научного издания Импакт-фактор Рассчитывается на основе трехлетнего периода Формула: I =A/B, где 2012 ◦ A – число цитирований в течение 2012 года для статей, изданных в 2010-2011 годах ◦ B – число статей, изданных в 2010-2011 Импакт-фактор Достоинства: ◦ Большой охват научной литературы ◦ Высокая корреляция с качеством рецензирования журнала ◦ Быстро адаптируется к изменениям в качестве журнала (иногда слишком быстро) Импакт-фактор Недостатки: ◦ Слишком короткий промежуток для расчета ◦ Не учитываются особенности различных научных областей ◦ Количество публикаций и ссылок – не критерий качества статьи Импакт-фактор Недостатки: ◦ Применяется не по назначению Вычисление импакт-фактора для исследовательских групп Оценка качества исследовательских групп на основе импакт-факторов журналов, в которых публикуются результаты Импакт-фактор Недостатки ◦ Очень слабая устойчивость к намеренным изменениям ◦ Не учитывается авторство ссылок Индекс Хирша (h-индекс) Предложен в 2005 году Хорхе Хиршем Является количественной характеристикой качества работ исследователя Предназначен для сравнения исследователей из одной области Индекс Хирша (h-индекс) Формула: ◦ Пусть Np – количество статей исследователя ◦ Пусть h его статей цитируются не менее h раз каждая, а остальные (Np - h) статей цитируются не более h раз каждая ◦ Тогда h – индекс Хирша Индекс Хирша (h-индекс) Недостатки: ◦ Недостаточно хорошо адаптируется к случаям малого количества статей ◦ Не учитывает временные рамки (у исследователей с большим стажем hиндекс значительно больше, нежели у их коллег с меньшим) M-индекс Введен Хиршем одновременно с hиндексом Предназначен для сглаживания значения индекса у исследователей с разным стажем М-индекс Формула: ◦ Пусть k – количество лет, прошедших с момента первой публикации ◦ M = h/k Структура доклада Историческая справка Обзор существующих методов Описание предложенного метода Технические детали Описание предложенного метода Основная идея – включить в расчет индекса качество ссылки Качество можно определять на основе графа цитирований HITS Итеративный алгоритм для оценки узлов направленного графа Для каждого узла выдает две оценки – hub и authority HITS Алгоритм: ◦ На каждой итерации: Для каждой вершины p Auth(p) := ∑Hub(n), где n – вершины, имеющие связь с p Для каждой вершины p Hub(p) := ∑Auth(n), где n – вершины, с которыми p имеет связь Нормализация: Для каждой вершины p Auth(p) := Auth(p) / max(Auth) Hub(p) := Hub(p) / max(Hub) Описание предложенного метода Алгоритм: ◦ Построить граф статей и цитирований ◦ На его основе получить граф связей исследователей ◦ Посчитать HITS ◦ Auth(author) – оценка исследователя Данные для анализа Открытые индексы научных статей: ◦ CiteSeerX ◦ DBLP – очень мало ссылок ◦ ACM Данные для анализа CiteSeerX: ◦ XML-формат для представления метаинформации статей ◦ Достаточное количество ссылок ◦ Низкая скорость отдачи Чувствительность к изменениям Можно проследить за изменением качества статей с течением времени В процессе агрегации учитываются только статьи, написанные в определенный промежуток времени ◦ Все ссылочные данные учитываются попрежнему Эвристики Убрать из графа связи между статьями одного автора Понизить вес ссылок между авторами, которые часто цитируют друг друга Подбор весов для разных типов публикаций Подбор весов для соавторов статьи Проверка качества алгоритма Получить ранжированную коллекцию авторов достаточно сложно Варианты: ◦ Агрегировать авторов по принадлежности к организации (институт, университет, компания, и т.д.) ◦ Агрегировать статьи по мероприятиям, на которых они представлены