414_Булатов_Суркова

advertisement
Международная научно-техническая конференция «Информационные системы и технологии»
ИСТ-2014
СЕКЦИЯ 5.2 ТЕХНИЧЕСКАЯ КИБЕРНЕТИКА (ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ УПРАВЛЕНИЯ)
И.В. БУЛАТОВ (магистрант), А.С. СУРКОВА (к.т.н.)
(Нижегородский государственный технический университет им. Р. Е. Алексеева)
ИСПОЛЬЗОВАНИЕ АЛГОРИТМА «RANDOM FOREST»
ДЛЯ КЛАССИФИКАЦИИ ТЕКСТОВ
В последнее время задачи управления текстовыми документами на основании обработки их
содержимого приобретают особенно важное значение в области информационных систем ввиду
постоянно повышающейся доступности документов в цифровой форме и необходимости получать
к ним доступ максимально быстрыми и удобными способами. Появляется новая обширная область
в сфере информационных технологий – Data mining, идеи которой полностью связаны с
управлением и анализом информации. Одной из основных задач этой сферы является
классификация – отнесение входного объекта (события, наблюдения) к одному из заранее
известных классов.
В данной работе рассматривается задача классификации текстовых документов, с
использованием алгоритма «Random forest».
Идея алгоритма заключается в том, что в качестве основы берётся достаточно «слабый»
алгоритм - дерево принятия решений. Каждому узлу дерева соответствует решающее правило
(критерий) для векторов признаков, представляющих классифицируемые объекты, а ребра дерева
выражают взаимоисключающие результаты проверки соответствия критериям. В зависимости от
выполнения критерия в каждом узле происходит ветвление и переход к следующему узлу, пока не
будет достигнут листовой узел. Каждому листовому узлу соответствует метка предопределенного
класса. В алгоритме «Random forest» создается большое количество различных
классифицирующих правил с использованием деревьев принятия решений, а результаты их
предсказаний усредняются. Итоговый результат будет существенно лучше результата отдельно
взятого дерева.
На этапе обучения определяется оптимальное число деревьев в «Random forest», которое
минимизирует ошибку классификации. Также на точность классификации влияет взаимная
корреляция построенных деревьев решения. Для уменьшения коррелированности деревьев
решений вводят элемент случайности при создании каждого дерева.
Для проверки работы алгоритма в качестве входных объектов были использованы
текстовые документы. Тексты обрабатывались и представлялись в виде векторов признаков. В
качестве признаков было выбрано значение функции TF-IDF для каждого, встречающегося в
текстах слова. Эта функция определяет вес термина t относительно каждого рассматриваемого
nt
N
документа dj: TF 
, IDF  log
. Функция TF-IDF позволяет оценить важность
df t
k nk
(значимость) термина в контексте каждого документа из рассматриваемого корпуса.
Исходный корпус текстов был разделен на обучающую и тестовую выборки объемом 50 и
20 документов соответственно, размер текстов составлял около 20кб. Эксперименты показали, что
предложенный метод хорошо справляется с бинарной классификацией (разбиением на два класса).
При увеличении количества классов уменьшается независимость признаков, за счет чего
ухудшается точность классификации.
Основным преимуществом алгоритма «Random forest» перед другими алгоритмами
машинного обучения (нейронные сети, SVM и др.) можно считать лёгкость его конфигурации –
минимум настроек, настройки алгоритма практически не зависят от конкретной задачи.
Основными параметрами алгоритма являются размер подмножества, используемого для
построения деревьев и количество деревьев в «Random forest». Рассмотренный алгоритм обладает
всеми преимуществами деревьев решений, поддерживает работу как с вещественными, так и с
категориальными признаками. Алгоритм способен сохранять точность построенной модели при
работе с большим количеством пропущенных данных.
E-mail: bulatowf@yandex.ru, ansurkova@yandex.ru
414
Download