О критерии существования и логическом описании r

Реклама
2Д
УДК 519.68
Ю.Ю. Дюличева
Таврический национальный университет им. В.И. Вернадского,
г. Симферополь, Украина
О критерии существования и логическом
описании r-корректного эмпирического
решающего леса
Рассматривается эмпирический решающий лес как набор отдельных эвристических деревьев
решений вместе со специальной процедурой коррекции. Получен критерий существования
r-корректного эмпирического леса. Разработан способ представления решающих правил, определяемых r-корректным эмпирическим лесом, в виде дизъюнктивных нормальных форм.
Введение
Предложенная в [1-3] индуктивная модель эмпирического решающего леса
(ЭРЛ) является реализацией процедурной коррекции набора эмпирических решающих деревьев как правил распознавания, которые по отдельности, вообще говоря, могут допускать ошибки. Построение ЭРЛ предполагает нахождение такой
совокупности эмпирических деревьев леса, в которой обязательно найдется система ветвей заданного ограниченного ранга, правильно классифицирующая все
объекты непротиворечивой обучающей выборки и тем самым обеспечивающая
корректность ЭРЛ. Поэтому важно выяснить, при каком условии существует корректный относительно заданной обучающей выборки ЭРЛ. В связи с применением эмпирического решающего леса в задачах индуктивного моделирования представляет интерес изучение особенностей решающих правил, определяемых ЭРЛ.
Целями данной работы являются: 1) получение условий существования
r-корректного эмпирического решающего леса; 2) разработка алгоритма синтеза
логических описаний классов объектов, определяемых r-корректным ЭРЛ, и изучение их особенностей.
Критерий существования r-корректного
эмпирического решающего леса
Алгоритм синтеза эмпирического решающего леса представляет собой процедуру коррекции класса редуцированных эмпирических решающих деревьев на
основе конъюнктивных закономерностей, ранг которых не превышает заданное
значение r. Редукцией некоторой ветви РД называется уменьшение ранга интервала, соответствующего ветви РД, до заданного значения r. Редуцированная ветвь
заканчивается терминальной вершиной специального вида, имеющей ссылку cut –
признак редукции, и определяет интервал, называемый областью отказа.
«Штучний інтелект» 1’2004
167
Дюличева Ю.Ю.
2Д
Определение 1. Ссылкой c12 дерева РД1 на дерево РД 2 называется указатель на корневую вершину дерева РД 2 , размещенный в каждом листе дерева РД1 ,
соответствующем некоторой области отказа. Областью отказа решающего дерева
называется интервал, ранг которого больше заданного значения r.
Определение 2. Упорядоченный набор эмпирических решающих деревьев
D  d1 , d 2 , ..., d q  со ссылками c12 , c23 , ..., cq 1q называется эмпирическим решающим лесом.
Очевидно, что эмпирический решающий лес определяет решающие правила
распознавания принадлежности объектов классам.
Определение 3. Эмпирический решающий лес называется r-корректным
относительно таблицы обучения Tmn , если входящие в него деревья
d1 , d 2 , ..., d q  не содержат ветвей ранга, превышающего r, последнее по порядку
дерево d q не имеет ветвей, соответствующих областям отказа, и решающее правило, соответствующее эмпирическому решающему лесу, безошибочно определяет класс каждого объекта из таблицы Tmn . Если же эмпирический решающий
лес ошибочно классифицирует хотя бы один объект таблицы Tmn , то он называется r-некорректным относительно этой таблицы.
Следующая теорема представляет критерий существования r-корректного
эмпирического решающего леса для заданной непротиворечивой обучающей таблицы Tmn .
Теорема 1. Для существования r-корректного относительно таблицы обучения Tmn эмпирического решающего леса необходимо и достаточно, чтобы для
каждого объекта ~
x T
существовал интервал N ~r ранга не больше, чем r, таx
mn
~
x  N ~xr
N ~xr
кой, что
, и во множестве
 Tmn содержались объекты только одного
и того же класса.
Доказательство. Необходимость. Если эмпирический решающий лес является r-корректным, то каждый объект ~
x  Tmn правильно классифицируется хотя
бы одной ветвью ранга не больше, чем r некоторого дерева леса. Этой ветви соответствует интервал N ~xr , и ветвь имеет метку, а не ссылку – признак редукции.
Поэтому все объекты подтаблицы N ~xr  Tmn принадлежат одному и тому же
классу, определяемому указанной меткой.
Достаточность. Полагая выполненным условие теоремы, укажем процедуру
синтеза r-корректного эмпирического леса. Пусть ~
x1 , ~
x 2 , ..., ~
x m – совокупность всех
~
~
~
объектов таблицы Tmn ;   x1 ,   x 2 , ...,   x m  – классы, которым принадлежат объекты; N ~xr1 , N ~xr2 , ..., N ~xrm – интервалы, определяемые условием теоремы; K 1r , K 2r , ..., K mr –
конъюнкции, соответствующие этим интервалам. Построим m бинарных решающих
деревьев, представленных на рис. 1, так, что j-е БРД правильно классифицирует объект ~
x ветвью, соответствующей конъюнкции K r (лист  ~
x ).
j
j
 j
Остальные листья j-го БРД, j  1, 2, ..., m , помечаются либо меткой некоторого класса, если соответствующая листу ветвь определяет интервал, в который
168
«Искусственный интеллект» 1’2004
О критерии существования и логическом описании…
2Д
попадают объекты только одного и того же класса из Tmn , либо ссылкой на следующее дерево. В БРДm вместо ссылок можно поставить метку любого класса.
Очевидно, построенный эмпирический решающий лес правильно классифицирует
все объекты из Tmn .
БРД1
БРДm
БРД2


 ~
x1 
 ~
x2 


 ~
xm 
Рисунок 1 – m бинарных решающих деревьев
Когда r-корректный эмпирический лес построить не удается, следует применять методы алгебраической коррекции. В этом случае все листья редуцированных эмпирических деревьев леса, включая те, которым соответствовали ссылки на
другие деревья, заменяются специальными пометками – числовыми векторами.
Построение логических описаний классов
по r-корректному эмпирическому решающему лесу
Рассмотрим построение непротиворечивых логических описаний классов в
виде ДНФ по эмпирическому решающему лесу. Для описания классов в виде
ДНФ, привычных и полезных при анализе единичных РД, в ЭРЛ фигурирует
существенно более сложная конструкция. Прежде чем приступить к ее
построению, заметим, что процесс принятия решения и его описание –
существенно разные вещи. С учетом алгоритма принятия решений с переходами
по ссылкам [2] корректный ЭРЛ определяет разбиение куба B n на области,
соответствующие классам, и соответственно однозначные решающие правила
(алгоритмические функции классов). Действительно, из определения алгоритма
распознавания с переходами по ссылкам очевидно, что для любого объекта
~
x  (в этом случае
x  B n однозначно определяется либо его метка класса  ~
завершится выполнение алгоритма распознавания с переходами по ссылкам),
либо ссылка на следующее дерево (метка листа cut). Для корректного леса в
последнем по порядку РД ссылок нет, следовательно, ~
x получает ровно одну
метку класса.
«Штучний інтелект» 1’2004
169
Дюличева Ю.Ю.
2Д
Пусть Wi : B n  1 ,  2 , ... ,   ,  – алгоритмическое отображение, определяемое i -м РД леса Dr  d1 , d 2 , ..., d q , где   число классов,   отказ от
решения.
Областью компетентности i -го решающего дерева d i будем называть мно


жество CompTree d i    ~
x  B n |  j ~
x    , а областью компетентности упорядоj 1
q
ченного множества d1 , d 2 , ..., dq решающих деревьев – CompSet q  CompTreedi  .
i1
Покажем, что CompSet 1  CompSet 2    CompSet q  .
Действительно, CompSet 1  CompTreed1  – множество, попав в которое,
классифицируемый объект обязательно будет опознан. В противном случае он
попадает в область отказа первого решающего дерева d1 : B n \ CompSet 1 и по
ссылке переадресовывается второму решающему дереву d 2 . В РД d 2 этот объект
может попасть в область CompTree d 2  , и тогда будет очевидно, что
CompSet 1  CompSet 2 . Если же любой объект ~
x  B n \ CompSet 1 не попадает
в область компетентности CompTree d 2  , то CompSet 1  CompSet 2 . Аналогично CompSet  j   CompSet  j  1 для j  2 , 3, ..., q  1 .
Теорема 2. Эмпирический решающий лес d1 , d 2 , ..., d q  корректен относительно
стандартной таблицы обучения Tmn тогда и только тогда, когда CompSet q   B n .
Доказательство. Достаточность. Если CompSet q   B n , то любой объект
~
x  Tmn принадлежит хотя бы одной области компетентности, и тогда он правильно классифицируется ветвью ограниченного ранга.
Необходимость. Предположим, CompSet q   B n . Тогда B n \ CompSet q  –
непустая область отказа. Отказ формируется только тогда, когда ветвь редуцируется. Редукция, в свою очередь, происходит только тогда, когда в интервал,
соответствующий редуцируемой ветви, попадает неправильно классифицируемый
объект.
Очевидно, каждое последующее по порядку, определенному алгоритмом
принятия решений, РД леса «вычисляет» отображение Wi только на сужении
Di 1  B n \ CompSet (i  1) , которое может быть описано в виде логической функx  Di 1
1, ~
ции Fi 1  x1 , x2 , ..., xn   
. Эта функция может быть представлена неко~
0 , x  Di 1
торой ДНФ Di 1  K i11  K i21    K i1 . Если в d i определено решающее правило L1i , j  Li2, j    Liu
j
, j
для некоторого класса  j в виде ДНФ, то для
логического описания этого класса следует использовать выражение
K1q 1  K 2q 1  ...  K qq11 L1q, j  Lq2 , j  ...  Lqu j , j . Но, несмотря на это, сложные



формулы определяют не используемые для вывода решения конъюнкции, а лишь
логическое описание решения вместе с областями компетентности.
170
«Искусственный интеллект» 1’2004
О критерии существования и логическом описании…
2Д
Построение ДНФ-класса по ЭРЛ как описания решения
10. Взять все ветви первого решающего дерева леса, помеченные метками
классов, и «расписать» конъюнкции по классам, получая ДНФ D1  j , j  1,  ,
 
как описание j-го класса по первому РД. Записать ДНФ R1 , соответствующую
ветвям, помеченным меткой cut ( R1 – описание области отказа по первому РД
эмпирического леса).
i0. Пусть построены Di 1  j , Ri 1 ( Ri 1 , i  1 – описание пересечения областей
 
отказа i  1 решающих деревьев эмпирического леса). По d i построим описание j-го
класса в виде рекурсивной процедуры: Di  j  Di 1  j  Ri 1  Di  j .
Заметим, что решение, определяемое ЭРЛ согласно алгоритму распознавания с переходами по ссылкам, всякий раз принимается одной конъюнкцией
ограниченного ранга, но, возможно, в условиях отказа предыдущих по порядку РД
леса. Важным свойством любой такой принимающей решение конъюнкции является её корректность на обучающей таблице Tmn : она выполняется только на
объектах одного класса.
 
  
 
Заключение
Построение эмпирического решающего леса представляет собой процедуру
последовательной коррекции решающих деревьев, каждое из которых, вообще
говоря, может допускать ошибки на некоторых объектах обучающей выборки.
Возникновение этих ошибок связано с заданием ограничения на ранги ветвей деревьев, входящих в лес. Тем не менее сохраняется возможность получения r-корректного на обучающей информации эмпирического решающего леса при выполнении условия: для каждого объекта ~
x из таблицы обучения должен существоr
вать интервал N ~ ранга не больше заданной величины r, такой, что ~
x  N ~r , и
x
x
r
~
x
множество N  Tmn содержит объекты только одного и того же класса. Это
условие является необходимым и достаточным для существования r-корректного леса. Сложность непосредственной проверки критерия по выборке Tmn , очевидно, оценивается как O(m 2 C nr ) . Но построение эмпирического леса как решающей процедуры не предполагает предварительной проверки критерия, а направлено на поиск такого набора решающих деревьев, чтобы обеспечивалась корректность леса. Если условие существования r-корректного эмпирического леса не
выполняется, то корректный решающий лес построить не удастся и целесообразно применение алгебраических методов коррекции.
Построение непротиворечивых логических описаний классов в виде ДНФ по
эмпирическому решающему лесу сводится к построению областей компетентности для всех деревьев, входящих в лес. На основе понятия области компетентности набора решающих деревьев установлен следующий факт. Эмпирический
решающий лес d1 , d 2 , ..., d q  корректен относительно стандартной таблицы обучения Tmn тогда и только тогда, когда область компетентности набора решающих
«Штучний інтелект» 1’2004
171
Дюличева Ю.Ю.
2Д
деревьев d1 , d 2 , ..., d q  покрывает все множество вершин единичного n-мерного
куба B n .
В дальнейшем представляется перспективным изучение вопросов, связанных с особенностями использования определяемых r-редуцированным эмпирическим лесом решающих правил для синтеза индуктивных оптимизационных моделей в канонической форме.
Литература
1. Донской В.И., Дюличева Ю.Ю. Индуктивная модель r-корректного эмпирического леса // Труды
междунар. конф. по индуктивному моделированию. – Львов. – 2002. – С. 54-58.
2. Дюличева Ю.Ю. Принятие решений на основе индуктивной модели эмпирического леса // Искусственный интеллект. – 2002. – № 2. – С. 110-115.
3. Донской В.И., Дюличева Ю.Ю. Алгоритмы синтеза r-редуцированного эмпирического леса // Тез.
докл. ММРО-11. – Пущино. – 2003. – С. 71-74.
Ю.Ю. Дюлічева
Про крітерій існування і логічний опис r-коректного емпіричного вирішального лісу
Розглядається емпіричний вирішальний ліс як набір окремих евристичних дерев рішень разом зі
спеціальною процедурою корекції. Здобуто критерій існування r-коректного емпіричного лісу.
Розроблено спосіб уявлення вирішальних правил, що визначаються r-коректним емпіричним
лісом, у вигляді диз’юнктивних нормальних форм.
Yu.Yu. Dyulicheva
About Criterion of Existence and Logical Description of R-correct Empirical Decision Forest
In this paper, the empirical decision forest as a collection of the individual decision trees with the special
correcting procedure is considered. The r-correct empirical decision forest existence criterion is obtained.
The decision rules of the r-correct empirical decision forest presented in disjunctive normal form are
obtained.
Статья поступила в редакцию 06.02.04.
172
«Искусственный интеллект» 1’2004
Скачать