ОбучениЕ Векторного Персептрона МЕТОДАМИ Линейного

реклама
ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2
В.М. КРЫЖАНОВСКИЙ, И.С. ЖЕЛАВСКАЯ,
М.Ю. МАЛЬСАГОВ
Научно-исследовательский институт системных исследований РАН,
Москва
Vladimir.Krizhanovsky@gmail.com, winjei@ya.ru,
Magomed.Malsagov@gmail.com
ОБУЧЕНИЕ ВЕКТОРНОГО ПЕРСЕПТРОНА МЕТОДАМИ
ЛИНЕЙНОГО ПРОГРАММИРОВАНИЯ
Применение линейного программирования для обучения бинарного
персептрона позволяет достичь теоретического максимума загрузки персептрона, который был предсказан Э. Гарднер. В настоящей статье эта
идея была развита на векторные нейронные сети. Компьютерное моделирование показывает, что вероятность ошибочной идентификации с использованием предложенного правила обучения снижается до 50 раз по
сравнению с хеббовским правилом.
Ключевые слова: векторные нейронные сети, симплекс-метод,
линейное программирование
Введение
Векторные модели нейронных сетей (ВНН) исследовались во многих
статьях [1-7]. Среди них наиболее известной является поттсовская модель
спинового стекла [1]. Ее свойства исследовались чаще с помощью методов статистической физики [2-4]. Характеристики памяти поттсовской
модели анализировались, в основном, с помощью компьютерных симуляций. В [5-6], так же как и в серии последующих статей [9-11], исследовались так называемые параметрические нейронные сети, направленные на
реализацию в виде оптического устройства. В последнем случае были
получены довольно простые аналитические выражения, описывающие их
эффективность, емкость памяти и помехоустойчивость. CMM (correlation
memory matrix) основывается на схожих идеях [7]. Авторы этой статьи
добились успеха в практическом применении их моделей.
Цель нейросетевого обучения в том, чтобы вычислить оптимальные
значения синаптических коэффициентов. Они обычно вычисляются с помощью хеббовского правила обучения. С одной стороны, это правило
очень быстрое и легкое при использовании, но с другой стороны, как видУДК 004.032.26(08) Нейронные сети
227
ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2
но из исследований Э. Гарднер, это правило не способно выявить полный
потенциал нейронной сети.
Э. Гарднер и др. доказали, что максимум допустимой загрузки памяти
бинарного персептрона равен 2. Линейное программирование (ЛП) позволяет приблизиться к критической загрузке. Однако, основным недостатком является очень высокая вычислительная сложность (экспоненциальная в худшем случае).
Идея использования ЛП-подхода к обучению персептрона впервые
была использована Крауфордом и Мезардом в 1987 [9]. Мы также предлагаем правило обучения, основанное на ЛП и описанное в статье [10]. Но
главным и значительным различием между этими правилами обучения
был ряд переменных целевых функций и сами переменные. В алгоритме
Крауфорда и Мезарда оптимизируется N значений синаптических коэффициентов (КМ-алгоритм) и M величин весовых коэффициентов перемноженных паттернов – в предложенном правиле ( M – число сохраненных паттернов). Очевидно, что в области большего практического интереса M  N  наш алгоритм лучше.
В настоящей статье идея ЛП-подхода к обучению векторных нейронных
сетей рассматривается в первый раз. Количество синаптических коэффициентов значительно возрастает для данного типа сетей, поэтому становится
невозможным использовать алгоритм Крауфорда и Мезарда для решения
задач высокой размерности (которые сопоставимы с практическими задачами). Но даже при низких размерностях, где этот алгоритм применим,
предложенное правило лучше до 10 000 раз. Ясно, что ЛП-подход значительно медленнее хеббовского правила, но этот недостаток уравновешивается снижением вероятности ошибки распознавания до 50 раз.
Постановка задачи
Рассмотрим следующую модельную задачу. Предположим, что у нас
есть фотографии нескольких объектов – эталонные паттерны. Это изображения в градациях серого с благоприятными условиями (число градаций серого равно Q ). Система получает фотографии этих объектов как
входы (фотографии сделаны под одни и тем же углом и т.д., следовательно, проблемы с масштабированием и т.п. здесь не учитываются). Эти
входные фото отличаются от эталонных образов с заданным искажением
по правилу:
(1)
xi  xi   ,
где xi – цвет i -го пикселя, xi  1, Q , и  – переменная с нормальным рас228
УДК 004.032.26(08) Нейронные сети
ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2
пределением N (0, out ) ; out – параметр искажений, вносимых внешней
окружающей средой. Для простоты все пиксели имеют одинаковое распределение. Параметр out этого распределения – заранее не известен, но
он может быть оценен из практических наблюдений. Знание распределения шумов и их параметры позволяют нам настроить нейронную сеть для
данного типа искажений должным образом.
Задача в том, чтобы построить такую нейронную сеть, которая позволяет определить точно фото объекта, который был продемонстрирован.
Таким образом, главной целью этой статьи является исследование и
применение предложенного алгоритма к этой модельной задаче.
Описание модели: векторный персептрон
Рассмотрим векторный персептрон (ВП) состоящий из двух слоев векторных нейронов, где каждый нейрон входного слоя ( N нейронов) связан
со всеми нейронами выходного слоя ( n нейронов). Нейроны входного и
выходного слоя имеют Q и q дискретных состояний, соответственно (в
общем случае Q  q ). Состояние нейронов входного слоя описываются
базисными векторами e k Q в Q -мерном пространстве R Q , а нейроны
выходного слоя – единичные вектора
v l q
в q -мерном пространстве.
Векторы e k и v l – нулевые векторы с k-й и l-й идентичной компонентой,
соответственно.
Поставим каждому эталонному вектору Xm = ( xm1 , xm2 ,..., xmN ) в соответствие соответствующий вектор-отклик Ym = ( y m1 , y m2 ,..., y mn ) , где
xmj  ek Q , y mi  v l q и m = 1, M . Таким образом? синаптический коэффициент между i -ым и j -ым нейронами задается q  Q -матрицей согласно обобщенному правилу Хебба:
M
Wij =  rmy mi xTmj J , i = 1,n и j = 1, N ,
(2)
m=1
где rm  0;1 – весовой коэффициент, который мы будем оптимизировать
с помощью линейного программирования (если rm  1 , получается классическое правило Хебба). Коэффициент rm определяет размер области
притяжения m -ого паттерна в случае полносвязной нейронной сети [11],
J – матрица мер близости, которая будет подробно рассмотрена в следуУДК 004.032.26(08) Нейронные сети
229
ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2
ющем разделе.
Когда подается неизвестный входной вектор X = x1 ,x2 ,...,x N  , где
x j  ek Q , локальное поле на i -ом выходном нейроне вычисляется следующим образом:
N
H i =  Wij x j .
(3)
j
Затем i-й нейрон, подобный спину, под воздействием локального поля
H i принимает положение наиболее близкое к направлению локального
поля (состояние нейрона дискретное, поэтому нейрон не может быть ориентирован точно по направлению вектора H i ). Другими словами, нейрон
ориентируется вдоль базисного вектора v r , проекция локального поля
H i на который максимальна. Пусть, например, это будет проекция на базисный вектор v3 . Затем i -ый выходной нейрон переключится в состояние 3, описываемое базисным вектором v3 :
(4)
yi = v3 .
Эта процедура проводится одновременно для всех n выходных
нейронов.
Описание модели: мера близости
Рассмотрим особый пример. Предположим, кто-то печатает на клавиатуре некоторое точно известное сообщение из пяти букв, например,
“ICANN”. Очевидно, что ввод этого слова может сопровождаться ошибками. Например, вместо буквы “I” с большой вероятностью можно ввести
буквы “U”, “O” и “K” (эти буквы расположены по соседству с “I” на клавиатуре). При построении нейронной сети для распознавания введенных
слов разумно учесть информацию о наиболее вероятных ошибках (ближайших клавишах). Ясно, что эти буквы не расположены в алфавитном
порядке, и в данном случае к “I” ближе, чем “G”, “H” или “J” в алфавите.
Эта информация представляется в упоминавшейся ранее матрице мер
близости J . Опишем ее более формально.
J – симметричная матрица мер близости между состояниями нейронов входного слоя, элементы которой J kl= J lk – мера близости между
состояниями k и l , k,l = 1,Q . Мера близости между состояниями нейронов выходного слоя не вводится. Если единичная матрица E выбрана в
230
УДК 004.032.26(08) Нейронные сети
ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2
качестве матрицы J (т.е. J  E ), то выражение (2) будет описывать веса
классического персептрона [5, 7]. Следовательно, чтобы ввести меру близости в поттсовский персептрон, который уже был обучен, достаточно
изменить межсвязи путем умножения их справа на матрицу J .
Матрица мер близости J может быть задана как особенностями задачи, так и основываться на анализе данных и природе шумов. Для того
чтобы ввести информацию о распределении шума в ВНН предлагается
назначить меру близости между состояниями нейронов равной вероятности переключения из одного состояния в другое под воздействием искажений:
(5)
J kl = Pkl , k,l = 1,Q ,
где Pkl – вероятность переключения из состояния k в состояние l под
воздействием искажений. Для модельной задачи в работе матрица P характеризуется только параметром out – искажения, вносимые внешней
окружающей средой:
 k l 2

2
1
Pkl 
e 2 out ,
2out
(6)
Параметр out неизвестен точно; следовательно, мы используем оценку этого параметра – in . Параметр in – внутренний переменный параметр модели, должен выбираться так, чтобы ошибка распознавания была
минимальна. В дальнейшем может ожидаться, что in  out , однако, как
показало компьютерное моделирование, это соотношение уточняется некоторым множителем: in  c out , где 1  c  2 .
Обучающее правило на основе линейного программирования
Согласно описанному выше алгоритму, условия корректного распознавания всех эталонных образов могут быть представлены системой из
M q  1 уравнений:
hi (m)y mi  hi (m) v l  , y mi  v l , m  1, M , l  1, q,

(7)
0  rm  1,
  0,

где hi (m) – локальное поле i -го выходного нейрона, когда подан неискаженный m -й эталонный образ, а ymi – величина ожидаемого отклика.
Затем i -й нейрон, подобный спину, под воздействием локального поля
УДК 004.032.26(08) Нейронные сети
231
ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2
H i принимает положение наиболее близкое к направлению локального
поля (состояние нейрона дискретное, поэтому нейрон не может быть ориентирован точно по направлению вектора H i ).
Параметр  вводится для лучшей распознающей стабильности. Необходимо найти такие значения rm , при которых набор уравнений (7) содержит наибольшее возможное значение  , так как параметр  ответственен за глубину и размер бассейна притяжения локальных минимумов,
сформулированных в терминах полносвязной модели Хопфилда. Больше
 при обучении, больше вероятность правильного распознавания зашумленных паттернов. Следовательно, относительно (2), необходимо найти
такие весовые коэффициенты rm , где неравенство (3) удовлетворено для
всех эталонных образов при самом большом возможном значении  . В
этом случае глубина сформированных локальных минимумов является
максимально возможной.
Таким образом, получаем задачу линейного программирования с набором ограничений (7) и следующей целевой функцией:
(8)
f r1 , r2 ,..., rM , Δ     max .
Требуется найти M  1 переменную, которые являются решением
этой задачи ЛП.
Схожие идеи формулировались Крауфордом и Мезардом [5]. Они были связаны с бинарными нейронными сетями, но мы расширили их алгоритм для векторных нейронных. Таким образом, неизвестными величинами в алгоритме Крауфорда и Мезарда являются N  Q  q весовых коэффициентов w j и параметр стабильности  . Будучи довольно близкими по
помехоустойчивости и емкости памяти для бинарного персептрона, эти
алгоритмы (их и наш) не могут быть применены с равными ограничениями для векторного персептрона, так как неравенство N  Q  q  M выполняется всегда. Даже с низкими значениями параметров, таких как
N ~ 100, Q ~ 20, q ~ 24 , итоговое число переменных препятствует решению сформулированной задачи за приемлемое время. Заметим, что требования к оперативной памяти для решения задачи возрастает с ростом параметров задачи. Например, при таких малых параметрах КМ-алгоритм
использует более 19 Гб оперативной памяти, в то время как предложенному алгоритму достаточно 1 Гб.
Анализ предложенного обучающего правила
232
УДК 004.032.26(08) Нейронные сети
ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2
В этом разделе мы экспериментально анализируем свойства предложенного алгоритма и сравниваем их с КМ-алгоритмом и правилом Хебба.
Здесь мы приводим результаты экспериментов, в которых менялись параметры in и out .
Рис. 1. Вероятность ошибочного
Рис. 2. Отношение времени
распознавания зашумленных эталон- обучении алгоритмом Крауфорных образов как функция параметра
да
внешней среды out при фиксирои Мезарда t K / M ко времени
ванных
обучения предложенным алгоритN = 50, q = 6, Q  16, M  60, in  1, 3 мом tOUR как функция размерности задачи N . Кривая получена
для правила Хебба (треугольные
маркеры), алгоритм Крауфорда–
экспериментально при q = 6,
Мезарда (круглые маркеры) и предQ  16, in  1,3 и out  0,7
ложенный
алгоритм (квадратные маркеры)
Cначала сравним наш подход с КМ. Во-первых, рассмотрим ошибку
распознавания, затем время обучения.
Мы провели большое количество экспериментов для различных параметров N , q, Q, M , in и out . Рисунок 1 показывает вероятность ошибочного распознавания в зависимости от параметра внешней среды out при
фиксированных параметрах N , q, Q, M , in . Самые лучшие результаты
были показаны предложенным правилом (кривая с квадратными маркерами); КМ-алгоритм немного хуже; хеббовское правило показывает
наихудший результат.
Как можно видеть на этом рисунке, нейронная сеть обученная с помощью правила Хебба, содержит ошибку даже при малых значениях параУДК 004.032.26(08) Нейронные сети
233
ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2
метра окружающей среды, т.е. при малых уровнях искажений  out  0,3 ,
в то время как сети, обученные с ЛП-подходом проявляют большую помехоустойчивость: они не чувствительны к искажениям вплоть до
out  0,9 .
Теперь рассмотрим отношение времени обучения КМ-алгоритма к
предложенному. Рис. 2 демонстрирует результаты экспериментов, в которых параметры q, Q, in , out были фиксированы, а параметры M и N
менялись так, чтобы загрузка сети оставалась постоянной: M Nq  0.06 .
Видно, что предложенный алгоритм превосходит КМ-алгоиртм даже
больше, чем увеличивается размер задачи, и эта разница увеличивается на
несколько порядков (три порядка на этом рисунке).
Такие маленькие значения параметров выбирались из-за того, что вычислительная сложность КМ-алгоритма растет слишком быстро с ростом
размерности задачи и, следовательно, невозможно физически получить
экспериментальные результаты для этого алгоритма на больших значениях параметров.
Сравним предложенный алгоритм с правилом Хебба. Покажем экспериментально, как меняются свойства сети, например, как вероятность
ошибочного распознавания зависит от внутреннего параметра модели in .
Рис. 3 иллюстрирует кривые вероятности ошибочного распознавания для
нескольких значений out  0, 6; 0, 7; 0,8 . Видно, что для обоих алгоритмов
существует оптимальное значение параметра in (точка, в которой ошибка распознавания минимальна). Для правила Хебба: in*  out ; для предложенного алгоритма: in*  2out , т.е. смещена вправо. Схоже поведение
наблюдалось во всех проведенных экспериментах.
Проследим отношения ошибки распознавания в оптимальных точках.
Рис. 4 показывает, что использование ЛП при обучении оправдано, так
как позволяет снизить вероятность ошибки до 50 раз. Отношение ошибки
быстро растет с уменьшением out , т.е. в области малых ошибок выигрыш
от применения ЛП более значительный. Следует заметить также, что
предложенный алгоритм более устойчив к ошибкам измерения  in , чем
правило Хебба. Это следует из сглаженности кривых в районе оптимальных точек.
234
УДК 004.032.26(08) Нейронные сети
ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2
Рис. 3. Вероятность ошибочного
распознавания как функция внутреннего параметра модели  in при фиксированных параметрах N  100 ,
q  12 , Q  16 , M  408 и
out  0, 6; 0, 7; 0,8 для
правила Хебба (кривые с маркерами)
и для предложенного алгоритма
(сплошные кривые).
Рис. 4. Отношение вероятности
ошибки распознавания КМалгоритма к предложенному алгоритму в области оптимальных
значений  in* как
функция от параметра внешней
среды  out . Кривая была построена экспериментально для
N  100, M  408
Выводы
В этой статье мы рассмотрели три алгоритма обучения векторных
нейронных сетей: правило Хебба, правило обучения Крауфорда–Мезарда
(обобщенное на векторные нейронные сети) и наш алгоритм. Последние
два алгоритма используют методы линейного программирования.
Показано, что, несмотря на большую вычислительную сложность, чем
у правила Хебба, использование ЛП для обучения векторных нейронных
сетей оправдано, так как этот подход позволяет снизить вероятность ошибочного распознавания до 50 раз. (Заметим, что применение линейного
программирования для обучения бинарного персептрона позволило достичь теоретического максимума загрузки персептрона, предсказанного Э.
Гарднер).
Предложенный алгоритм отличается от КМ-алгоритма существенно
меньшим числом переменных. Это положительно повлияло на обучение:
предложенный алгоритм превосходит КМ на несколько порядков (до
10000 раз). Более того, устойчивость нейронной сети, обученной этим
подходом, на 10–75 % выше.
Во всей статье мы ссылались на КМ-алгоритм, обобщенный на векУДК 004.032.26(08) Нейронные сети
235
ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2
торные нейронные сети, однако, сам алгоритм не был здесь описан из-за
ограниченного размера статьи.
Работа поддержана проектами ОНИТ РАН № 1.8 и № 2.1.
Список литературы
1. Kanter I. Potts-glass models of neural networks //Physical Review A,
1988. V. 37(7). P. 2739-2742.
2. Cook J. The mean-field theory of a Q-state neural network model
//Journal of Physics A. 1989. V. 22. P. 2000-2012.
3. Bolle D., Dupont P. and Huyghebaert J. Thermodynamics properties of
the q-state Potts-glass neural network //Physical Review A. 1992. Vol. 45. P.
4194-4197.
4. Wu F. The Potts model //Review of Modern Physics, 1982. V. 54. P.
235-268.
5. Kryzhanovsky B. and Mikaelyan A. On the Recognition Ability of a
Neural Network on Neurons with Parametric Transformation of Frequencies
//Doklady Mathematics. 2002. V. 65. № 2. P. 286-288.
6. Kryzhanovsky B., Kryzhanovskiy V., Litinskii L. Machine Learning in
Vector Models of Neural Networks //Advances in Machine Learning II. Koronacki J., Ras Z.W., Wierzchon S.T. (et al.) (Eds.). Series “Studies in Computational Intelligence”. Springer. 2010. P. 427–443.
7. Kryzhanovskiy V. Binary Patterns Identification by Vector Neural Network with Measure of Proximity between Neuron States //T. Honkela et al.
(Eds.). ICANN. 2011. Part II. LNCS 6792. P. 119–126.
8. Austin J., Turner A., Lees K. Chemical Structure Matching Using Correlation Matrix Memories //Edinburgh. UK. 1999. International Conference on
Artificial Neural Networks. IEE Conference Publication 470. published by IEE.
London.
9. Krauth W., Mezard M. Learning algorithms with optimal stability in
neural networks //J. Phys. A. Math. Gen. 20. 1987. L745-L752.
10.Krizhanovsky V., Zhelavskaya I., Karandashev I. Binary perceptron
learning algorithm using simplex-method //Lecture Notes in Artificial Intelligence. Springer Verlag Berlin/Heidelberg. Part I. LNCS 7267. 2012. P. 111118.
11.Kryzhanovsky B., Kryzhanovsky V. Binary optimization: On the probability of a local minimum detection in random search //Lecture Notes in Artificial Intelligence. 2008. V. 5097. P. 89-100.
236
УДК 004.032.26(08) Нейронные сети
ISBN 978-5-7262-1775-8 НЕЙРОИНФОРМАТИКА-2013. Часть 2
УДК 004.032.26(08) Нейронные сети
237
Скачать