Аппроксимация непрерывных функций через синтез нейронных

advertisement
Вычислительные технологии
Том 14, № 1, 2009
Аппроксимация непрерывных функций
через синтез нейронных сетей
с минимальной конфигурацией
Н. А. Игнатьев
Национальный университет Узбекистана, Ташкент
e-mail: n_ignatev@rambler.ru
Рассматривается решение задачи численной аппроксимации непрерывных функций в пространстве количественных и разнотипных признаков через синтез нейронных сетей с минимальной конфигурацией.
Ключевые слова: нейронные сети, численная аппроксимация, разнотипные признаки.
Введение
Аппроксимация непрерывных функций от многих переменных с помощью искусственных нейронных сетей (НС) с любой наперед заданной точностью является базовой задачей для многих прикладных исследований. Методы обучения НС решению этой задачи еще далеки от совершенства. В частности, это проявляется в отсутствии строго
формализованных процедур адаптации конфигурации нейронной сети под сложность
восстанавливаемых функций. Как правило, выбор конфигурации производится эвристическим путем и определяется интуицией и опытом исследователя.
Предлагаемый структурный и алгоритмический синтез однослойных НС основан на
оптимизации через построение минимального покрытия обучающей выборки объектамиэталонами в пространстве количественных и разнотипных признаков. Решается задача
локально-оптимального покрытия обучающей выборки объектами-эталонами при заданной величине максимального уклонения ε табличного значения функции от аппроксимируемого.
Аппроксимация функций в окрестностях объектов-эталонов (локальных областях)
осуществляется с помощью радиально-базисных функций активации. В отличие от известных методов аппроксимации (например, [1, 2]) базовые элементы сети относительно
равномерно (в смысле задаваемой точности) распределяются по локальным областям
признакового пространства. Рассматриваются вопросы о способности обобщения НС
решаемой задачи в зависимости от точности аппроксимации непрерывной случайной
функции и объема обучающей выборки.
c Институт вычислительных технологий Сибирского отделения Российской академии наук, 2009.
°
80
81
Н. А. Игнатьев
1. Аппроксимация функций в пространстве количественных
признаков
Считается что табличное представление (по строкам) функции задается с помощью n+1
количественных признаков. Один из признаков строки объявляется целевым, остальные — зависимыми от него. Множество значений целевого признака обозначим через Y ,
зависимых — через X1 , ..., Xn и будем считать, что между ними существует некоторая
явно не заданная функциональная зависимость y = f (x1 , ..., xn ). Далее по тексту при
употреблении термина объект подразумевается, что он описывается на множестве зависимых признаков. Требуется синтезировать НС через аппроксимацию вектора значений
функции Y = {yi }m
1 , каждому элементу которого соответствует объект из множества
E0 = {S1 , S2 , ..., Sm }.
Аппроксимационные свойства НС для восстановления функциональной зависимости
реализуются с помощью радиально-базисных функций так называемыми RBF -сетями.
Описание множества радиально-базисных функций и их использование в RBF -сетях
можно найти в [1]. Однослойные НС, использующие эти функции, в данной работе рассматриваются как альтернатива многослойным НС, которые в силу многоэкстремальности решаемой задачи не всегда могут выдать глобальный минимум ошибки. В данной
работе при описании процесса выбора локально-оптимального покрытия E0 объектамиэталонами для аппроксимации табличных функций используется радиально-базисная
функция exp(αz).
Пусть объект S j ∈ E0 (S j = (xj1 , ..., xjn )) является одним из эталонов выборки и
n
1X 2
значения весов его признаков [3, 4], вычисляются как wjt = xjt и wj0 = −
w . Для
2 t=1 jt
синтеза НС, вычисляющей значения целевого признака, необходимо:
а) задать значение ε — максимальной величины уклонения | y − y |≤ ε значения
целевого признака y, восстанавливаемого с помощью радиально-базисной функции, от
табличного y;
б) построить локально-оптимальное покрытие Π(ε) множества E0 объектами-эталонами с учетом значения ε.
Значение взвешенной суммы по объекту-эталону S j ∈ E0 для произвольного допустимого объекта S = (a1 , ..., an ) вычисляется как
j
ϕ(S, S ) =
n
X
wji ai + wj0
(1)
i=1
и используется для определения по max ϕ(S, S j ) локальной области пространства для
j
аппроксимации функции по объекту (точке) S.
По каждому объекту Sr ∈ E0 из уравнения
yr − sign(yr ) exp(αr ϕ(Sr , Sr )) = 0
вычисляется значение параметра αr радиально-базисной функции exp(αz).
Для каждого Si ∈ E0 строится упорядоченная по мере убывания значений ϕ(Sj , Si )
по (1) последовательность
Si1 , Si2 , ..., Sim , Si = Si1 .
(2)
Аппроксимация непрерывных функций через синтез нейронных сетей...
82
Из (2) выделяется подпоследовательность {Si1 , Si2 , ..., Sik }, 1 ≤ k < m, для каждого
Sij , j = 1, k, которой выполняется
| yi − sign(yi ) exp(αij ϕ(Sij , Si )) |≤ ε
(| yi −sign(yi ) exp(αik+1 ϕ(Sik+1 , Si )) |> ε), и объект Si включается в состав множества Tij .
Процесс построения минимального покрытия Π(ε) обучающей выборки производится следующим образом.
1. Выбирается максимальное по числу объектов множество Ti . Объект Si ∈ E0 включается в состав объектов покрытия Π(ε). По каждому Sj ∈ Ti производится коррекция
состава множеств {Ti } как
(
∅, u = j,
Tu =
Tu \Sj , u 6= j.
2. Если
m
S
Ti = ∅, то процесс формирования Π(ε) заканчивается, в противном случае
i=1
происходит переход на 1.
Описанная технология синтеза НС позволяет предотвращать паралич сети, который имеет место при использовании градиентных методов обучения. RBF -сети являются универсальными аппроксиматорами и при необременительных ограничениях могут
быть использованы для аппроксимации любой непрерывной функции.
Вопрос о соотношении точности (задаваемой значением ε) восстанавливаемой функции, длины обучающей выборки и количества зависимых параметров в [5] исследовался
через равномерную сходимость частот появления событий Jmε = {Si | (yi − yi )2 > ε}
к их вероятностям. Пусть Πmn (ε) — покрытие объектами-эталонами множества E0 в
n-мерном признаковом пространстве при аппроксимации функций из Y с максимальной величиной уклонения ε. Способность НС к обобщению должна проявляться при
выполнении минимум двух условий:
1) lim | Πmn (ε) |= Cn ;
m→∞
| Πmn (ε) |
= 0.
m→∞
m
Первое условие обеспечивает ограниченность (конечность) числа объектов-эталонов
покрытия E0 . Значение Cn = const при фиксированной размерности пространства и
состава его признаков. Смысл второго условия заключается в том, что число точек,
которое может обобщить каждый объект-эталон для аппроксимации значений функции,
стремится к бесконечности.
2) lim
2. Аппроксимация функций в разнотипном признаковом
пространстве
Считается, что множество значений целевого признака Y измеряется по количественной шкале, r признаков из числа зависимых X1 , ..., Xn измеряются по количественным
шкалам, n − r — по номинальным. Обозначим множество количественных признаков
через I, номинальных — через J.
Для решения проблемы разномасштабности измерений и согласования синаптических весов количественных и номинальных признаков используется дробно-линейное
83
Н. А. Игнатьев
отображение значений количественных признаков в интервал [0,1]. По каждому признаку xt ∈ J с числом градаций lt производится разбиение значений целевого признака
{yi }m
1 на lt непересекающихся классов K1 , K2 , ..., Klt для вычисления весового коэффициента wt . Упорядоченное множество значений {yi }m
1 разбивается на lt интервалов
(c2k−1 , c2k ], c2k−1 < c2k , k = 1, lt . Критерий для определения границ интервалов (c2k−1 , c2k ]
основывается на проверке гипотезы (утверждения) о том, что каждый интервал содержит значения признака только одного класса.
Пусть upi — множество значений целевого признака класса Ki в интервале (c2p−1 , c2p ],
A = (a0 , ..., alt ), a0 = 0, alt = m, ap — порядковый номер элемента упорядоченной по
возрастанию последовательности rj1 , ..., rjm значений целевого признака, определяющий
правую границу интервала c2p = rap .
Критерий
 l l
 l l

lt
t P
t
t P
t
P
P
P
p
p
p
p p
uj + ui ) 
ui (m− | Ki | −
ui (ui − 1)  

j=1
 p=1 i=1
  p=1 i=1

(3)
 lt

 → max
lt
P
{A}
P


| Ki | (| Ki | −1)
| Ki | (m− | Ki |)
i=1
i=1
позволяет вычислять оптимальное значение синаптического веса wt при классификации
{yi }m
1 по lt градациям признака xt ∈ J.
Значение взвешенной суммы синаптических весов объекта S = (b1 , ..., bn ) по объектуэталону S d = (xd1 , ..., xdn ) вычисляется как
X
X
wu2 + wd0 ,
(4)
ϕ(S d , S) =
wdu bu +
xu ∈I
xu ∈J,xdu =bu
!
Ã
X
1 X 2
где {wd0 , wd1 , ..., wdn } — веса нейронов сети, wd0 = −
w +
w2 .
2 x ∈I du x ∈J u
u
u
При заданной величине максимального уклонения ε табличных значений функции
от аппроксимируемых объекты минимального покрытия Π(ε) отбираются по тому же
самому принципу, что и для количественных признаков. Локальная область для вычисления значений функции по S определяется через объект-победитель S d ∈ Π(ε) по (4),
для которого ϕ(S d , S) = max
ϕ(S v , S).
v
S ∈Π(ε)
Проблема выбора признакового пространства при аппроксимации функций заключается в поиске критериев для выделения информативных наборов признаков и в данной работе специально не рассматривается.
3. Вычислительный эксперимент
Для эксперимента был взят модельный пример из 40 объектов с данными об аномальной
сетевой активности, описываемых множеством из восьми разнотипных признаков:
1) характер воздействия;
2) цель воздействия;
3) условие начала воздействия;
4) наличие обратной связи с атакуемым объектом;
5) расположение субъекта атаки;
Аппроксимация непрерывных функций через синтез нейронных сетей...
84
Результаты эксперимента
Максимальное
уклонение ε
0.1
0.15
0.2
Число объектов
покрытия
23
18
9
Среднее
уклонение
0.0437
0.0576
0.0807
6) объем передаваемой информации;
7) вероятность нанесения ущерба;
8) сумма ожидаемого ущерба.
Максимальное число градаций номинальных признаков в описании объектов не
превышало 3. Точность аппроксимации значений целевого признака “Вероятность нанесения ущерба” семью зависимыми признаками определялась по объектам обучения
E0 \Π(ε) как величина среднего абсолютного уклонения вычисленного значения функции от табличного. Для вычисления значения функции использовалась радиальнобазисная функция exp(αr ϕ(S r , S)). Влияние выбора величины максимального уклонения ε на результаты аппроксимации целевого признака представлены в таблице.
Список литературы
[1] Терехов В.А., Ефимов Д.В., Тюкин И.Ю. Нейросетевые системы управления М.: Высшая школа, 2002.
[2] Буцев А.В., Первозванский А.А. Локальная аппроксимация на искусственных нейросетях // Автом. и телемеханика. 1995. № 9. С. 127–136.
[3] Игнатьев Н.А., Мадрахимов Ш.Ф. О некоторых способах повышения прозрачности
нейронных сетей // Вычисл. технологии. 2003. Т. 8, № 6. С. 31–37.
[4] Игнатьев Н.А. О синтезе факторов в искусственных нейронных сетях // Вычисл. технологии. 2005. Т. 10, № 3. С. 32–38.
[5] Вапник В.Н. Восстановление зависимостей по эпиpическим данным. М.: Наука, 1979.
Поступила в редакцию 9 ноября 2006 г.,
в переработанном виде — 28 июля 2008 г.
Download