Новое поколение метрик цитирования. Построение IF-scoring rules Московкин В.М¹., Голиков Н.А². ¹Белгородский государственный национальный исследовательский университет, Белгород, Россия, ²Независимый исследователь, Харьков, Украина The new generation of citation metrics. Construction of IF-scoring rules Moskovkin V. M¹., Golikov N. A². ¹ NRU “Belgorod State University”, Belgorod, Russia, ² Independent researcher, Kharkov, Ukraine Международная конференция Проблемы наукометрии: состояние и перспективы развития 10-12 октября 2013 г. Москва, ИПРАН РАН Бум по созданию Хирше-подобных метрик цитирования Как показано в работе L.Waltman & N.E.van Eck (2012) в 2010 и 2011 гг. почти каждая четвертая работа, опубликованная в журналах “Scientometrics” и “Journal of Informetrics”, цитировала классическую статью J.E.Hirsch (2005). После публикации последней работы возник бум по созданию Хирше-подобных метрик цитирования: m,g,e,w,hg,q и др. Ущербность h-index и ему подобных метрик цитирования Ущербность h-index на фундаментальном уровне показана в работе L.Waltman & N.J.van Eck (2012). Он не удовлетворяет следующим постулатам: Если два ученых достигают одного и того же относительного (то же для абсолютного) улучшения их научной результативности, то их ранжирование друг относительно друга должно оставаться неизменным; Если ученый X1 имеет ранг выше, чем у ученого Y1, а ученый X2 имеет ранг выше, чем у ученого Y2, тогда исследовательская группа, состоящая из ученых X1 и X2 должна иметь совокупный ранг выше, чем у исследовательской группы, состоящей из ученых Y1 иY2. То же самое имеет место для всех Хирше-подобных метрик цитирования (Marchant, 2009) Построение улучшенных метрик цитирования Задача построения улучшенной метрики цитирования на основе scoring rules (summation-based rankings) предполагает несколько этапов: 1. Построение (вывод) самой расчётной формулы (формул) предположительно соответсвующей неким интересующим нас критериям. Построение улучшенных метрик цитирования Примеры таковых критериев: учёт импактфактора источника публикации, способность “справиться” с предельными случаями (у автора одна статья очень высокоцитируемая, остальные почти не цитируються, все статьи данного исследователя написаны в соавторстве, статей очень много но все малоцитируемы, и т.д.). Построение улучшенных метрик цитирования 2. Получение данных для апробирования метрик. В текущей ситуации коммерциализации доступа к любым данным, эта задача является достаточно нетривиальной . Построение улучшенных метрик цитирования . 3. Апробирование метрики на полученных массивах данных, проверка её на соответствие критериям упомянутым в пункте 1. Формула расчёта метрики В дальнейшем будут использоваться следующие обозначения: Вектор перечня (списка) статей: P ( P1 ,..., Pi ,..., Pn ) Вектор перечня (списка) журналов приуроченных к вектору P : J ( J1 ,..., Ji ,..., J n ) Вектор статей ссылающихся на статью P i: Pi ( Pi1 ,..., Pij ,..., Pici ) Формула расчёта метрики Вектор перечня (списка) журналов приуроченных к вектору P i : J i ( J i1 ,..., J ij ,..., J ic ) i Вектор импакт-факторов исходного перечня журналов: IF ( IF1 ,..., IFi ,..., IFn ) Вектора импакт-факторов журналов приуроченных к вектору J i : IFi ( IFi1 ,..., IFij ,..., IFic ) i Q P IF1 ( IF11 ... IF1 j ...IF1c1 ) ... IFi ( IFi1 ... IFij ...IFici ) ... IFn ( IFn1 ... IFnj ...IFncn ) Формула расчёта метрики n ci i 1 j 1 Q P IFi IFij Если IFi IFij 1, то Q P ci , если IFij 1 n i 1 то Q P IFi ci n i 1 Формула расчёта метрики Quoted publication 1 journal Quoted publication 1 Impact factor Impact factor Impact factor Quoted publication 2 journal Quoted publication 2 Quoted publication 3 journal Quoted publication 3 Impact factor Cited publication Cited publication journal Формула расчёта метрики Ji1 Pi1 IFi1 IFi IFi2 Ji2 Pi2 Ji3 Pi3 IFi3 Pi Ji Получение данных Для апробирования предлагаемой метрики цитирования необходим достаточно большой объём данных по каждому научному сотруднику для которого производится расчёт. Получение данных А именно: список публикаций, источник (журнал) в котором была осуществлена публикация, каким-либо образом рассчитанный импакт-фактор журнала, список публикаций цитирующих данную, и импакт-факторы журналов в которых были опубликованы статьи цитирующие данную. Получение данных Такого рода данные, могут быть получены либо из коммерческих источников (Scopus, Web of Science) либо из открытых источников (Google Scholar). Авторами данного исследования был выбран 2-ой вариант. Получение данных Оба подхода предполагают создание программного обеспечения, позволяющего автоматизировать сбор и обработку соответствующей информации. В ходе проведения данного исследования были написаны программы, позволяющие автоматизировать получение информации от Google Scholar и её обработку. Получение данных Программа Scrapper, получающая информацию от Google Scholar, действует следующим образом: 1. Считывает информацию из профиля исследователя на Google Scholar. Считывается следующая информация: название статьи, год публикации, журнал в котором была опубликована статья и др. Сохраняет полученную информацию в базу данных. Получение данных 2. Следует по ссылкам на каждую отдельную публикацию (опция by cited) . По каждой такой ссылке мы получаем результаты поиска Google Scholar - публикации цитирующие данную. Получение данных 3. Далее scrapper обрабатывает все страницы поисковой выдачи Google Scholar, содержащие описание публикаций цитирующих данную, сохраняет полученную информацию в базу данных. Следует учесть, что Scholar очень часто даёт в выдаче только фрагменты названия журнала. Получение данных 4. С сайта Scimago берётся находящийся в открытом доступе список «скопусовских» научных журналов с их импакт-факторами. Получение данных Так как Google Scholar защищается от попыток автоматизировать работу с ним и не предоставляет API для такой автоматизации, потребовалось предпринять довольно нетривиальные меры по преодолению данной защиты Получение данных Одна из основных мер по преодолению защиты — уменьшение частоты запросов к Google Scholar, что соответственно весьма сильно сказывается на скорости сбора данных, разумеется в отрицательную сторону. По этой же причине пока достаточное количество данных не получено. Предварительная обработка полученных данных 1. Идентифицируются названия журналов, путём сопоставления полученного от Scholar названия журнала либо фрагментов названия с названиями журналов из списка Scimago. При этом названия приводятся к единому, «нормализованному», виду: одному и тому же регистру символов, составляется вариант названия без вспомогательных слов (артиклей и т.д). Предварительная обработка полученных данных 2. Далее идут сравнения в следующем порядке: сравниваются необработанные названия, сравниваются названия приведённые к единому регистру, сравниваются названия без вспомогательных слов. Предварительная обработка полученных данных 2. Если однозначного сопоставления не произошло и получено более одного совпадения, то требуются дополнительные действия для идентификации журнала (иного источника). В этом случае, если в поисковой выдаче Scholar есть гиперссылка на источник опубликовавший данную статью, то исследуется то, что находится по ссылке в качестве источника. Предварительная обработка полученных данных А именно, если по гиперссылке отдаётся html, т. е. фактически plain text, то производится сопоставление каждого из совпавших названий из списка Scimago с текстом по гиперссылке. Если есть однозначное совпадение, то журнал идентифицирован. Предварительная обработка полученных данных 3. Если на шаге 1 или на шаге 2 алгоритма (описаны на 2-х предыдущих слайдах), совпадений не обнаружено, то данная публикация помечается как опубликованная в неизвестном источнике и в дальнейших расчётах не участвует, либо ей присваивается некий минимальный импактфактор. Предварительная обработка полученных данных Примечание: в общем виде задача идентификации источника публикации весьма сложна и в настоящее время не решена. Предварительная обработка полученных данных Выше было упомянуто, что пока достаточного количества данных для апробирования предлагаемых метрик не получено так что здесь можно изложить только предварительные результаты: Предварительные результаты Расчёты выполненные для сотрудника БГУ Рустама Кайбышева на основе данных из его профиля Google Scholar (http://scholar.google.com/citations?hl=en&user =jls0BsYAAAAJ&view_op=list_works&pagesize =100) – взяты 69 наиболее цитируемых публикаций для которых были идентифицированы названия журналов, дали значение метрики цитирования 5239 Предварительные результаты Расчёты выполненные для сотрудника БГУ Андрея Белякова на основе данных из его профиля Google Scholar (http://scholar.google.com/citations?hl=en&user =eA98zsAAAAJ&view_op=list_works&pagesize=100) – взяты 40 наиболее цитируемых публикаций для которых были идентифицированы названия журналов, дали значение метрики цитирования 2257 Альтернативные подходы к оценке результативности Альтернативные методики предполагают широкое использование machine learning. Возможно использование методов unsupervised learning для кластеризации научных работ и исследователей по неизвестным нам признакам которые и будут выявлены в ходе исследования. Альтернативные подходы к оценке результативности Так же возможно имея проставленные внешними экспертами оценки результативности исследователей и тексты их статей можно применить методики supervised learning для построения системы, способной определять (predication) с той или иной достоверностью возможную импактность ещё неопубликованной статьи.