Шевченко Алексей, 422 группа Быстрый рост количества научных публикаций Большой разброс публикаций по сети Отсутствие какой-либо общей структуры научных работ Отсутствие свободного доступа к публикациям некоторых электронных журналов Улучшение возможностей доступа к публикациям Различный формат документов (текст, html, PDF и т.д.) Структуризация документов на основе взаимного цитирования Создание базы данных, объединяющей существующие научные публикации Полнота охвата данных в конкретной области Низкая вероятность ошибок при связывании документов Большое количество человеческих трудозатрат Создание программного средства, обеспечивающего индексацию электронных документов Полная автоматизация процесса индексации документов Высокая вероятность ошибки Возможность обрабатывать индексировать документы только на одном языке Комбинированный подход: использование базы данных одновременно со средствами автоматической индексации Поиск научных публикаций Анализ полученных документов Индексирование и связывание документов Поиск с помощью существующих поисковых машин Поиск по ключевым словам (например, “publication”, “paper”, “postscript”) Получение информации из дружественных источников Получение ссылок на документы по RSS или аналогичным способом Непосредственная загрузка ссылок в базу данных системы автоматического индексирования авторами или издателями научных статей Определение «научности» документа на основании наличия списка литературы или секции «Related works» Поиск ссылочной секции по форматированию Поиск непосредственно ссылок на прочие работы Под словами «ссылка» или «цитата» подразумевается ссылка на статью вида год-автор-заголовок и т.д. Полнотекстовый поиск не производится. Извлечение метаданных из цитат Извлечение метаданных из документа Сохранение метаданных документа в базе данных Группировка цитат, относящихся к одном документу, и сопоставление ссылок и цитируемых документов на основании метаданных документа и цитаты Данная задача является ключевой при построении графа цитирования Существуют различные методы решения этой задачи. Можно выделить четыре основных способа ее решения: На основании расстояний между строками или расстояний редактирования На основании статистики слов (например, TFIDF) Сопоставление подполей (subfield) цитат и метаданных (например, год издания) Вероятностные модели, также использующие информацию подполей А также комбинации вышеперечисленных методов Идеальный вариант – подполя цитаты полностью совпадают с метаданными документа Различное написание ссылок на одни и те же документы Ошибки и опечатки в имени автора, годе выпуска и т.д. Два подполя с одинаковым значением могут ссылаться на различные данные Пример: Aha, D. W. (1991), Instance-based learning algorithms, Machine Learning 6(1), 37-66. D. W. Aha, D. Kibler and M. K. Albert, Instance-Based Learning Algorithms. Machine Learning 6 37-66, Kluwer Academic Publishers, 1991. Aha, D. W., Kibler, D. & Albert, M. K. (1990). Instance-based learning algorithms. Draft submission to Machine Learning. CiteSeer – известная программа, выполняющая ACI CiteSeer использует алгоритм, основанный на нормализации цитат, сортировки цитат по длине и сопоставления слов и фраз внутри подполей Алгоритм может быть улучшен методами машинного обучения, проводимого на существующих библиографических базах Кроме того, можно разрешить определенным пользователям вносить изменения CiteSeer позволяет классифицировать статьи как исследовательские, учебные и обзорные на основании информации о количестве цитат из широко цитируемых статей (hubs and authorities) CiteSeer предоставляет дополнительные функции, такие как навигация по графу цитирования, сбор статистики (например, за какие годы больше всего статей у определенного автора). Из индексации исключены «stop-words», например, «the», и т.д. Самыми простыми методами группировки метаданных являются определение строковых расстояний и TFIDF-мера Эти способы не учитывают информацию подполей; они рассматривают цитаты и, возможно, метаданные документов как текстовую строку Существует множество различных строковых расстояний. Цитаты считаются относящимися к одной группе, если расстояние между ними не превышает некоторой эмпирически установленной величины. Одним из самых простых расстояний является расстояние Левеншайна, которое считается как количество удалений, вставок и замен, необходимый для преобразования одной строки в другую (расстояние редактирования). Существуют и гораздо более сложные метрики (например, LikeIt) Для определения схожести текстов может использоваться tf *idf мера (Tf = term frequency, Idf = inverse document frequency): Размерность вектора, представляющего текст, равна общему количеству термов (различных слов) во всей выборке текстов J-й элемент вектора I, соответствующего I-му документу, равен tf*idf Tf = ½ + ½ * TermFrequency/MaxTermFrequency, где TermFrequency – частота терма в тексте, MaxTermFrequency – максимальная частота термов в тексте Idf = log(N/df), где N – число документов в выборке, df – число документов, в которых встречается терм Схожесть текстов определяется как косинус угла между векторами, представляющими документы: n SimTfIdf a b i 1 n a i 1 2 i i i n i 1 bi2 Сначала для каждого документа p(i) выделяются все упоминаемые авторы a(i,j), каждый из которых соотносится с метазаписью Для каждой записи выделяются подполя (атрибуты) t(i, j, k), 1<= k <= m «Блочный» модуль группирует непротиворечивые цитаты (метазаписи) в «предварительные классы» (candidate classes) Для каждой пары внутри класса строится поатрибутный вектор похожести, причем для разных типов атрибутов используются разные функции похожести (например, расстояние редактирования для URL и TFIDF для имен) На основании этого вектора SVM (Support Vector Machine) определяет попарные расстояния между метазаписями На основании данных DBSCAN проводит кластеризацию Для обучения SVM- алгоритма используется обучающая выборка, состоящая из векторов похожести и их булевых меток. Задача алгоритма – поиск оптимальной гиперплоскости (w*x) + b = 0, w – Rn, b – R, разделяющей обучающую выборку. Для оптимизации ищется минимальное значение |w|^2, при условии, что Yi((w*xi) + b) >= 1 (Yi – булевая метка, +1 или -1) LASVM – модификация SVM-алгоритма. В то время как SVM работает только с пакетами, LASVM способен работать в онлайн-режиме, т.е. при добавлении новых данных не нужно заново обрабатывать всю обучающую выборку. За счет этого можно использовать меньше оперативной памяти, т.о. LASVM применим к очень большим объемам данных Для оптимизации обучающей выборки используются ASM – active sample selection, которая оставляет наиболее значимые данные и удаляет «шумы». Выборка считается тем более оптимальной, чем ближе она находится к гиперплоскости. Использование классической ASM в сочетании с SVM слишком дорого, однако можно использовать упрощенные методы без полного поиска; например, выбрать из каждый 50 сэмплов один наилучший DBSCAN is Density Based Spatial Clustering of Applications with Noise Попарная кластеризация с превышением порога создает проблему транзитивности, когда A и B и В и С попадают в один кластер, а А и С – нет. Эта проблема возникает из-за ошибок в извлечении метаданных и несовершенстве используемых метрик DBSCAN – высокоэффективный метод кластеризации, основанный на густоте точек Причины использования DBSCAN: Довольно хорошее решение проблемы транзитивности Моделирование кластеров любой формы; кроме того, границы кластеров более приближены к человеческому восприятию Высокая эффективность метода, при вычислительной сложности O(N*logN) Для всех определений будем полагать заданными параметры Eps и MinPts. Точка P непосредственно густо-достижима (directly densityreachable) из точки Q, если P лежит в Eps-окрестности Q и кол-во всех точек в этой окрестности >= MinPts. Q – центр (core point) P густо-достижима из Q, если существует последовательность P1…Pn, где P1 = Q, Pn = P и Pi+1 непосредственно густо-достижима из Q P густо-связанная с Q, если существует O, т.ч. P и Q густо-достижимы из O Кластер - непустое подмножество C исходного множества точек, удовлетворяющее след. условиям: 1) Для любых P и Q, если P принадлежит C и Q г.-д. из P, то Q принадлежит C 2) Для любых P и Q из C, P густо-связана с Q Шум – множество точек исходного множества, не принадлежащих ни одному кластеру Корректность следует из двух лемм: Если в Eps-окрестности точки P находится не менее MinPts точек, то все густо-достижимые из P точки образуют кластер Если C – кластер и P - центр, то C эквивалентен мно-ву всех густо-достижимых точек из P Общий принцип работы алгоритма кластеризации таков. Алгоритм начинает работу в произвольной точке P Если точка P является центром, то все густодостижимые из P точки образуют кластер Если точка P не является центром, то выбирается следующая точка, и т.д. Каждая цитата обрабатывается сразу же, при поступлении в систему, и, если соответствующий документ не был найден, в соответствие ставится некий виртуальный документ. При поступлении в систему подходящего документа виртуальный документ заменяется на реальный Для извлеченных из каждой цитаты метаданных строится структура, состоящая из конъюнкции дизъюнкций всех полей, относящихся к имени автора, и конъюнкции прочих атрибутов Далее, для заданного документа ищется список всех цитат, «похожесть» которых превышает некоторое значение, и для заданной цитаты ищется аналогичный список документов. На основании этих данных делается вывод, относится заданная цитата к документу или нет Также ставится задача определения метаданных некоторого неизвестного документа на основании метаданных всех ссылающихся на него цитат. В таком случае из всех возможных вариантов строится «доверительный вектор», состоящий из вероятностей всех возможных вариантов. При появлении нового варианта вектор перерасчитывается с учетом нового возможного значения Steve Lawrence, C. Lee Giles, Kurt Bollacker. Digital Libraries and Autonomous Citation Indexing. В данной статье описана проблема индексирования цитат и документов, а также описана работа системы для ACI CiteSeer Anand Sivasubramaniam, C. Lee Giles, and others. Learning Metadata from the Evidence in an On-Line Citation Matching Scheme. В данной статье описан комбинированный подход к проблеме построения графа цитирования, основанный на вероятностных моделях и кластеризации. Jian Huang1, Seyda Ertekin2, and C. Lee Giles. Efficient Name Disambiguation for Large-Scale Databases. В данной статье описана система, основанная на методах LASVM (обучаемый алгоритм, используемый для извлечения метаданных) и DBSCAN (метод кластеризации, основанный на понятии плотности) Martin Ester, Hans-Peter Kriegel, Jörg Sander, Xiaowei Xu. A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise. В данной статье приводится детальное описание алгоритма DBSCAN.