1 1. Постановка задачи В задаче классификации и регрессии требуется определить значение зависимой переменной объекта на основании значений других переменных, характеризующих данный объект. Формально задачу классификации и регрессии можно описать следующим образом. Имеется множество объектов, где ij — исследуемый объект. Примером таких объектов может быть информация о проведении игр при разных погодных условиях (табл. 1). : 2 3 Если значениями переменной являются элементы конечного множества, то говорят, что она имеет категориальный тип. Например, переменная наблюдение принимает значения на множестве значений {солнце, облачность, дождь}. Если множество значений переменной y конечное, то задача называется задачей классификации. Если переменная y принимает значение на множестве действительных чисел R , то задача называется задачей регрессии. 4 2.Представление результатов. 2.1. Правила классификации В задачах классификации и регрессии обнаруженная функциональная зависимость между переменными может быть представлена одним из следующих способов: классификационные правила; деревья решений; математические функции. 5 Классификационные правила состоят из двух частей: условия и заключения: если (условие) то (заключение). Условием является проверка одной или нескольких независимых переменных. Проверки нескольких переменных могут быть объединены с помощью операций "и", "или" и "не". Заключением является значение зависимой переменной или распределение ее вероятности по классам, например: если (наблюдение = солнце и температура = жарко) то (игра = нет); Достоинствами правил является легкость их восприятия и запись на естественном языке, их относительная независимость. В набор правил легко добавить новое правило без необходимости изменять уже существующие. Относительность независимости правил связана с возможной их противоречивостью друг другу. Если переменные, характеризующие некоторый объект, удовлетворяют условным частям правил с разными заключениями, то возникает неопределенность со значением его зависимой переменной. Например, пусть имеются правила: если (наблюдение = солнце) то (игра = нет); если (наблюдение = облачность и температура = холодно) то (игра = да). В них объекты, удовлетворяющие условиям второго правила, удовлетворяют и условиям первого правила. Однако вывод делается разный. Другими словами, в соответствии с этими правилами при одинаковых обстоятельствах будут получены противоречивые указания, что неприемлемо. 6 2.2. Деревья решений Деревья решений — это способ представления правил в иерархической, последовательной структуре. На рис. изображен пример дерева решений для данных, представленных в табл. 7 2.3. Математические функции Математическая функция выражает отношение зависимой переменной от независимых переменных. В этом случае анализируемые объекты рассматриваются как точки в (m + 1)мерном пространстве. Тогда переменные объекта рассматриваются как координаты, а функция имеет следующий вид: Где — веса независимых переменных, в поиске которых и состоит задача нахождения классификационной функции. 8 Логические типы, как правило, кодируют цифрами 1 и 0. Истине ставят в соответствие значение 1, а ложь обозначают 0. Значениями категориальных переменных являются имена возможных состояний изучаемого объекта. 1)Их имена должны быть перечислены и пронумерованы в списке. Например, значение переменной наблюдение = {солнце, облачность, дождь} можно заменить значениями {0, 1, 2}. 2)Замена возможных значений набором двоичных признаков. В наборе столько двоичных признаков, сколько имен содержится в списке возможных состояний объекта. При анализе объекта значение 1 присваивается тому двоичному признаку, который соответствует состоянию объекта. Остальным присваивается значение 0. Например, для переменной наблюдения такими значениями будут {001, 010, 100}. 9 3. Методы построения правил классификации. 3.1. Алгоритм построения 1-правил Простейший алгоритм формирования элементарных правил для классификации объекта. Он строит правила по значению одной независимой переменной, поэтому в литературе его часто называют "1правило" (1-rule) или кратко 1R-алгоритм. Идея алгоритма : Для любого возможного значения каждой независимой переменной формируется правило, которое классифицирует объекты из обучающей выборки. При этом в заключительной части правила указывается значение зависимой переменной, которое наиболее часто встречается у объектов с выбранным значением независимой переменной. В этом случае ошибкой правила является количество объектов, имеющих то же значение рассматриваемой переменной, но не относящихся к выбранному классу. Таким образом, для каждой переменной будет получен набор правил (для каждого значения). Оценив степень ошибки каждого набора, выбирается переменная, для которой построены правила с наименьшей ошибкой. Для примера, представленного в табл. 1, в результате будут получены правила и их оценки, приведенные в табл. 2. 10 11 4. Методы построения деревьев решений 4.1. Методика «разделяй и властвуй» Общий принцип построения деревьев решений, основанный на методике "разделяй и властвуй", заключается в рекурсивном разбиении множества объектов из обучающей выборки на подмножества, содержащие объекты, относящиеся к одинаковым классам. Относительно обучающей выборки Т и множества классов С возможны три ситуации: Множество Т содержит один или более объектов, относящихся к одному классу r . Тогда дерево решений для Т — это лист, определяющий класс r ; Множество T не содержит ни одного объекта (пустое множество). Тогда это снова лист, и класс, ассоциированный с листом, выбирается из другого множества, отличного от Т, например, из множества, ассоциированного с родителем; Множество Т содержит объекты, относящиеся к разным классам. В этом случае следует разбить множество T на некоторые подмножества. 12 Если один раз переменная была выбрана и по ней было произведено разбиение на подмножества, то алгоритм не может вернуться назад и выбрать другую переменную, которая дала бы лучшее разбиение. Выбранная переменная должна разбить множество так, чтобы получаемые в итоге подмножества состояли из объектов, принадлежащих к одному классу, или были максимально приближены к этому, т. е. чтобы количество объектов из других классов ("примесей") в каждом из этих множеств было минимальным. 13 4.2. Алгоритм покрытия На каждом этапе генерируется проверка узла дерева, который покрывает несколько объектов обучающей выборки. Идею алгоритма можно представить графически . 14 При наличии у объектов только двух переменных их можно представить в виде точек двумерного пространства. Объекты, относящиеся к разным классам, отмечаются знаками "+" и "–". Как видно из рисунка, при разбиении множества на подмножества строится дерево, покрывающее только объекты выбранного класса. 15 Для построения правил с помощью данного алгоритма в обучающей выборке должны присутствовать всевозможные комбинации значений независимых переменных. Например, данные, позволяющие рекомендовать тип контактных линз, представлены в табл. 16 5. Методы построения математических функций 5.1. Общий вид Методы, рассмотренные для правил и деревьев решений, работают наиболее естественно с категориальными переменными. Их можно адаптировать для работы с числовыми переменными, однако существуют методы, которые наиболее естественно работают с ними. При построении математической функции классификации или регрессии основная задача сводится к выбору наилучшей функции из всего множества вариантов. Дело в том, что может существовать множество функций, одинаково классифицирующих одну и ту же обучающую выборку. Данная проблема проиллюстрирована на рис. 17 Каждая из трех линий успешно разделяет все точки на два класса (представленные на рисунке квадратами и кружками), однако модель должна быть представлена одной функцией, которая наилучшим образом решит задачу для новых объектов. В результате задачу построения функции классификации и регрессии в простейшей форме можно формально описать как задачу выбора функции с минимальной степенью ошибки: где F — множество всех возможных функций; — функция потерь (loss function), в которой — значение зависимой переменной, найденное с помощью функции f для вектора значение. — ее точное (известное) 18 5.2.Линейные методы. Метод наименьших квадратов Различают два вида функций: линейные и нелинейные. В первом случае функции множества F имеют вид: 19 Задача заключается в отыскании таких коэффициентов ω , чтобы удовлетворить условие Например, при решении задачи регрессии коэффициенты ω можно вычислить, используя квадратичную функцию потерь и множество линейных функций F : 20 5.3. Нелинейные методы Нелинейные модели лучше классифицируют объекты, однако их построение более сложно. Задача также сводится к минимизации выражения При этом множество F содержит нелинейные функции. В простейшем случае построение таких функций все-таки сводится к построению линейных моделей. Для этого исходное пространство объектов преобразуется к новому: 21 В новом пространстве строится линейная функция, которая в исходном пространстве является нелинейной. Для использования построенной функции выполняется обратное преобразование в исходное пространство 22 5.4. Support Vector Machines (SVM) Идея метода основывается на предположении о том, что наилучшим способом разделения точек в m мерном пространстве является m −1 плоскость (заданная параметризация f x() 0 = ), равноудаленная от точек, принадлежащих разным классам. Для двумерного пространства эту идею можно представить в виде, изображенном на рис 23 Как можно заметить, для решения этой задачи достаточно провести плоскость, равноудаленную от ближайших друг к другу точек, относящихся к разному классу. На рисунке такими точками являются точки c и d . Данный метод интерпретирует объекты (и соответствующие им в пространстве точки) как векторы размера m . Другими словами, независимые переменные, характеризующие объекты, являются координатами векторов. Ближайшие друг к другу векторы, относящиеся к разным классам, называются векторами поддержки (support vectors). 24 Формально данную задачу можно описать как поиск функции, отвечающей следующим условиям: для некоторого конечного значения ошибки ε∈ℜ . Если f (x) линейна, то ее можно записать в виде: где <ω , x >— скалярное произведение векторов ω и x ; b — константа, заменяющая коэффициент ω0 Введем понятие плоскости функции таким образом, что большему значению плоскости соответствует меньшее значение евклидовой нормы вектора ω : 25 Тогда задачу нахождения функции f(x) можно сформулировать следующим образом: минимизировать значение при условии: Решением данной задачи является функция вида: 26 Заметим, что при создании нелинейных моделей с использованием метода SVM не выполняется прямое, а затем обратное преобразование объектов из нелинейного в линейное пространство. Преобразование заложено в самой формуле расчета, что значительно снижает вычислительные затраты. Вид преобразования, а точнее функция k (xi, x ) может быть различного типа и выбирается в зависимости от структуры данных. В табл. приведены основные виды функций классификации, применяемых в SVM-методе. 27 К достоинствам метода SVM можно отнести следующие факторы: • теоретическая и практическая обоснованность метода; общий подход ко многим задачам. • устойчивые решения, нет проблем с локальными минимумами; • работает в любом количестве измерений. Недостатками метода являются: • невысокая производительность по сравнению с более простыми методами; • отсутствие общих рекомендаций по подбору параметров и выбору ядра; • побочные эффекты нелинейных преобразований; • сложности с интерпретацией результата; • работает с небольшим количеством векторов. 28 6. Прогнозирование временных рядов. 6.1. Постановка задачи Частным случаем задачи классификации является задача прогнозирования временных рядов. Временным рядом называется последовательность событий, упорядоченных по времени их наблюдения. События обычно фиксируются через равные интервалы времени T и представляются в виде последовательности: где ei — событие в момент времени ti , n — общее количество событий. Событие может характеризоваться несколькими атрибутами: 29 6.2. Методы прогнозирования временных рядов Прогнозирование временных рядов осуществляется в три этапа: 1. Построение модели, характеризующей временной ряд. Для этого применяются различные методы статистики и классификации. 2. Оценка построенной модели. Для оценки модели имеющиеся данные разбиваются на два множества: обучающую и тестовую. Построение модели выполняется на обучающем множестве, а затем с ее помощью строят прогноз на тестовом множестве. Спрогнозированные результаты сравнивают с реальными данными и по степени ошибки оценивают модель. 3. Если построенная на первом этапе модель получила удовлетворительную оценку, то ее можно использовать для прогноза будущих событий. 30 Выводы В задаче классификации и регрессии требуется определить значение зависимой переменной объекта на основании значений других переменных, характеризующих его. Наиболее распространенные модели, отражающие результат классификации — это классификационные правила, деревья решений, математические (линейные и нелинейные) функции. Деревья решений — это способ представления правил в иерархической последовательной структуре. Математическая функция выражает отношение зависимой переменной от независимых, строится статистическими методами, а также методом SVM. 31 В методе "разделяй и властвуй", суть заключается в рекурсивном разбиении множества объектов из обучающей выборки на подмножества, содержащие объекты, относящиеся к одинаковым классам. Идея алгоритма покрытия заключается в построении деревьев решений для каждого класса по отдельности. Идея метода SVM основывается на предположении, что наилучшим способом разделения точек в m -мерном пространстве является m −1 плоскость (заданная функцией f x( ) ), равноудаленная от точек, принадлежащих разным классам. 32