Описание предложенного метода

реклама
Построение наукометрического
индекса, устойчивого к спаму
Докладчик: Александр Пироженко
Структура доклада
Историческая справка
 Обзор существующих методов
 Описание предложенного метода
 Технические детали

Структура доклада
Историческая справка
 Обзор существующих методов
 Описание предложенного метода
 Технические детали

Историческая справка

Первый индекс цитирования (Shepard
Citations) – 1873г



Область применения – юриспруденция
Задача – упрощение поиска релевантных
документов в условиях прецедентного права
Поддерживается и активно используется до
сих пор
Историческая справка

Science Citation Index (SCI) – 1960г
◦ Создан в Институте научной информации
(ISI)
◦ Представляет из себя библиотеку
входящих и исходящих ссылок для статей
из >150 научных дисциплин
◦ В настоящее время поддерживается
Thomson Reauters и используется для
подсчет импакт-фактора
Структура доклада
Историческая справка
 Обзор существующих методов
 Описание предложенного метода
 Технические детали

Импакт-фактор
Создан в 1960 и поддерживается ISI
(ныне подразделение Thomson)
 Изначально предлагался для оценки
важности научного издания

Импакт-фактор
Рассчитывается на основе трехлетнего
периода
 Формула: I =A/B, где

2012
◦ A – число цитирований в течение 2012
года для статей, изданных в 2010-2011
годах
◦ B – число статей, изданных в 2010-2011
Импакт-фактор

Достоинства:
◦ Большой охват научной литературы
◦ Высокая корреляция с качеством
рецензирования журнала
◦ Быстро адаптируется к изменениям в
качестве журнала (иногда слишком
быстро)
Импакт-фактор

Недостатки:
◦ Слишком короткий промежуток для
расчета
◦ Не учитываются особенности различных
научных областей
◦ Количество публикаций и ссылок – не
критерий качества статьи
Импакт-фактор

Недостатки:
◦ Применяется не по назначению
 Вычисление импакт-фактора для
исследовательских групп
 Оценка качества исследовательских групп на
основе импакт-факторов журналов, в которых
публикуются результаты
Импакт-фактор

Недостатки
◦ Очень слабая устойчивость к намеренным
изменениям
◦ Не учитывается авторство ссылок
Индекс Хирша (h-индекс)
Предложен в 2005 году Хорхе Хиршем
 Является количественной
характеристикой качества работ
исследователя
 Предназначен для сравнения
исследователей из одной области

Индекс Хирша (h-индекс)

Формула:
◦ Пусть Np – количество статей
исследователя
◦ Пусть h его статей цитируются не менее h
раз каждая, а остальные (Np - h) статей
цитируются не более h раз каждая
◦ Тогда h – индекс Хирша
Индекс Хирша (h-индекс)

Недостатки:
◦ Недостаточно хорошо адаптируется к
случаям малого количества статей
◦ Не учитывает временные рамки (у
исследователей с большим стажем hиндекс значительно больше, нежели у их
коллег с меньшим)
M-индекс
Введен Хиршем одновременно с hиндексом
 Предназначен для сглаживания
значения индекса у исследователей с
разным стажем

М-индекс

Формула:
◦ Пусть k – количество лет, прошедших с
момента первой публикации
◦ M = h/k
Структура доклада
Историческая справка
 Обзор существующих методов
 Описание предложенного метода
 Технические детали

Описание предложенного метода
Основная идея – включить в расчет
индекса качество ссылки
 Качество можно определять на основе
графа цитирований

HITS
Итеративный алгоритм для оценки
узлов направленного графа
 Для каждого узла выдает две оценки –
hub и authority

HITS

Алгоритм:
◦ На каждой итерации:
 Для каждой вершины p
 Auth(p) := ∑Hub(n), где n – вершины, имеющие связь с p
 Для каждой вершины p
 Hub(p) := ∑Auth(n), где n – вершины, с которыми p
имеет связь
 Нормализация:
 Для каждой вершины p
 Auth(p) := Auth(p) / max(Auth)
 Hub(p) := Hub(p) / max(Hub)
Описание предложенного метода

Алгоритм:
◦ Построить граф статей и цитирований
◦ На его основе получить граф связей
исследователей
◦ Посчитать HITS
◦ Auth(author) – оценка исследователя
Данные для анализа

Открытые индексы научных статей:
◦ CiteSeerX
◦ DBLP – очень мало ссылок
◦ ACM
Данные для анализа

CiteSeerX:
◦ XML-формат для представления
метаинформации статей
◦ Достаточное количество ссылок
◦ Низкая скорость отдачи
Чувствительность к изменениям
Можно проследить за изменением
качества статей с течением времени
 В процессе агрегации учитываются
только статьи, написанные в
определенный промежуток времени

◦ Все ссылочные данные учитываются попрежнему
Эвристики
Убрать из графа связи между статьями
одного автора
 Понизить вес ссылок между авторами,
которые часто цитируют друг друга
 Подбор весов для разных типов
публикаций
 Подбор весов для соавторов статьи

Проверка качества алгоритма
Получить ранжированную коллекцию
авторов достаточно сложно
 Варианты:

◦ Агрегировать авторов по принадлежности
к организации (институт, университет,
компания, и т.д.)
◦ Агрегировать статьи по мероприятиям, на
которых они представлены
Скачать