Информационный поиск План • Векторная модель • Ранжирование документов на основе весов, метаданных • Определение весов на основе машинного обучения Модель векторного пространства Идея: -представление документа и запроса в виде векторов -нахождение пространственно-близких векторов word1 q d1 d2 word2 Косинусная мера сходства , word1 q d1 d2 word2 Взвешивание термина «The information retrieval» Нам надо: 1. Уменьшить вес слова, если оно встречается в большом количестве документов (Например, слово “The”) 2. Сделать вес максимальным, если слово встречается часто только в некоторых документах 3. Сделать вес поменьше, если слово встречается реже, чем во 2 пункте Взвешивание термина 1. Частота термина: tf – количество вхождений термина в документ 2. Документная частота: df – количество документов, содержащих термин 3. Обратная документная частота Решение: t -> tf × idf Ранжирование Необходимо определить 10 лучших результатов Как это сделать? Ранжирование CosineScore(q) float Scores[N]=0 Инициализация Length[N] for each термина запроса do вычисляем wt, q for each пары (d, tft, d) do Scores[d]+=wft, d × wt, q for each d do Scores[d] = Scores[d] / Length[d] return 10 лучших Проблема Некоторые документы имеют метаданные либо разбиты на части (заголовок, автор, …) Как учесть эти данные при ранжировании? Параметрические и зонные индексы Дата создания поля метаданных зоны метаданных Формат документа Название документа Аннотация Индексирование полей Для каждого поля – один параметрический индекс Для такого индексирования используются B-деревья Индексирование зон Для каждой зоны можно создать инвертированный список документов, встречается это слово стандартный в которых Но зоны можно представлять в виде словопозиций «Найти документы, в которых слово William встречается в названии документа и в списке авторов» Взвешенное зонное ранжирование «Information» Всего 3 зоны: author, title, body. вес ВЗР определяется как соответствие между q и k-ой зоной Если «Information» входит только в title и body, то релевантность документа равна Вычисление весов на основе машинного обучения 1. Имеем множество обучающих примеров, состоящий из a) qj b) dj c) r(qj,dj) Каждому документу дается значение релевантности вручную(r) Вычисление весов на основе машинного обучения 2. Веса определяются на основе обучение на этих примерах Вводим функцию Цель: найти g на основе машинного обучения Все ошибки суммируются. Так что теперь задача состоит в том, чтобы минимизировать эту ошибку путем выбора g. Заключение - Модель векторного пространства - Методы ранжирования - Определение весов на основе обучения машинного