Беспереборные методы кросс-валидации для оценивания

реклама
На правах рукописи
Абрамов Вадим Игоревич
МЕТОД ОПОРНЫХ ОБЪЕКТОВ ДЛЯ ОБУЧЕНИЯ
РАСПОЗНАВАНИЮ ОБРАЗОВ В ПРОИЗВОЛЬНЫХ
МЕТРИЧЕСКИХ ПРОСТРАНСТВАХ
Специальность 05.13.17 – Теоретические основы информатики
АВТОРЕФЕРАТ
диссертации на соискание ученой степени
кандидата физико-математических наук
Москва, 2014
Работа выполнена на кафедре «Интеллектуальные системы» Федерального государственного автономного образовательного учреждения высшего профессионального образования
«Московский физико-технический институт (государственный университет)».
Научный руководитель:
доктор технических наук, профессор
Моттль Вадим Вячеславович
Официальные оппоненты:
доктор технических наук, профессор
Дорофеюк Александр Александрович, Институт проблем
управления РАН, заведующий лабораторией №55.
доктор физико-математических наук, профессор
Двоенко Сергей Динилович, кафедра информационной
безопасности, Государственное образовательное учреждение высшего профессионального образования «Тульский
государственный университет».
Ведущая организация:
Федеральное государственное унитарное предприятие
«Государственный научно-исследовательский институт
авиационных систем».
Защита состоится « » декабря 2014 г. в :00 часов на заседании диссертационного совета Д 002.017.02 при Федеральном государственном бюджетном учреждении науки «Вычислительный центр им. А.А. Дородницына Российской академии наук», расположенном
по адресу 119991, г. Москва, ул. Вавилова, 40.
С диссертацией можно ознакомиться в библиотеке ВЦ РАН.
Автореферат разослан «
» ноября 2014 г.
Ученый секретарь
диссертационного совета
доктор физико-математических наук
Рязанов В.В.
2
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность. Проблема обучения распознаванию образов составляет важнейший аспект современной теории машинного обучения (Machine Learning)1. Пусть в пределах генеральной совокупности объектов реального мира  всякий объект характеризуется
скрытой от наблюдателя принадлежностью к одному из конечного множества классов
y()Y  { y1 ,..., y m } . Природа выбирает некоторый объект и требует, чтобы наблюдатель
«угадал» класс объекта, всякий раз «наказывая» за ошибку yˆ ()  y () . В данной работе
мы ограничимся рассмотрением задачи распознавания образов для двух классов Y  {1,1} .
Теория машинного обучения основана на понятии конечной обучающей совокупности,
в которой известны истинные значения индексов классов объектов
(1)
( j , y j ), y j  y( j )  1, j 1,..., N ,
и которая является единственным источником информации о скрытых свойствах природы,
доступным наблюдателю. Задача обучения заключается в поиске такой аппроксимации
yˆ () функции y() , известной лишь в пределах обучающей совокупности, которая позволила бы продолжить эту функцию на все множество объектов yˆ ():  Y  {1,1} .
В данной диссертации гипотеза компактности, сформулированная Э.М. Браверманом2,
рассматривается как основополагающий принцип машинного обучения. В самой общей
формулировке для задач обучения распознаванию образов гипотеза компактности заключается в предположении, что объекты, отнесенные природой к одному и тому же классу,
имеют, как правило, бóльшее сходство между собой, чем объекты разных классов. Способ
измерения сходства либо несходства объектов должен выработать наблюдатель.
В качестве математически корректной модели интуитивного суждения о несходстве
объектов реального мира  в данной диссертации рассматривается некоторая метрика,
выбранная наблюдателем:
(, ):    R , (, )  (, )  0, (, )  0, если   ,
(2)
(, )  (, )  (, ).
Выбор метрики удачен, если выполняется гипотеза компактности: когда (, )  0 , то в
большинстве случаев классы объектов совпадают y ()  y () .
В диссертации показано, что именно гипотеза компактности, выражаемая некоторой
метрикой (2), лежит в основе чрезвычайно популярного метода машинного обучения, получившего в мировой литературе название кернельного метода (Kernel Based Approach)3,
являющегося развитием известного метода потенциальных функций 4. Под кернелом (потенциальной функцией) понимается всякая симметричная числовая функция, определенная на множестве объектов K (, ):  R , образующая неотрицательно определенную матрицу значений  K (i ,  j ), i, j 1,..., N  для всякой конечной совокупности объектов {1 ,..., N }   . Известно, что всякий кернел определяет погружение исходного множества объектов  в некоторое гипотетическое линейное пространство, быть может, бесконечномерное, на которое эта функция естественным образом продолжается, и в котором
она играет роль скалярного произведения, определяя тем самым евклидову метрику.
Наиболее популярный метод обучения распознаванию двух классов объектов, получивший название метода опорных векторов (Support Vector Machine) основан на идее поиска такой гиперплоскости в этом воображаемом линейном пространстве (дискриминантной гиперплоскости), которая обеспечила бы наиболее правильную классификацию объектов обучающей совокупности в смысле максимизации их евклидовых расстояний до гиперплоскости с нужной стороны от нее3.
Вапник В.Н. Восстановление зависимостей по эмпирическим данным. М., Наука, 1979, 449 с.
Браверман Э.М. Опыты по обучению машины распознаванию зрительных образов. Автоматика и телемеханика,
1962, т. 23, № 3, с. 349-364.
3
Vapnik V. Statistical Learning Theory. John-Wiley & Sons, Inc., 1998, 736 p.
4
Айзерман М.А., Браверман Э.М., Розоноэр Л.И. Метод потенциальных функций в теории обучения машин. М.:
Наука, 1970, 386 с.
1
2
3
Первая проблемная ситуация, определившая выбор темы данного диссертационного
исследования, заключается в том, что существует континуум разных кернелов, отличающихся друг от друга только выбором нулевого элемента в соответствующих гипотетических линейных пространствах, но определяющих одну и ту же метрику на множестве объектов реального мира. Кроме того, опыт показывает, что держатели прикладных задач,
эксперты в соответствующих предметных областях знания, хорошо понимают предложение сформировать метрику на множестве объектов, удовлетворяющую, по их мнению, гипотезе компактности, но плохо понимают просьбу предложить соответствующий кернел.
Для разрешения этой проблемной ситуации в настоящей диссертации предлагается
метод обучения распознаванию образов в множествах объектов, в которых определена
лишь метрика вместо кернела, существенно более сложного по своей математической
структуре. Метод практически полностью аналогичен методу опорных векторов и требует
лишь, чтобы метрика на множестве объектов обладала некоторыми специальными свойствами. Метрики этого вида предложено называть пред-евклидовыми (proto-Euclidean metrics), поскольку каждая из них обеспечивает континуум естественных погружений исходного множества объектов в разные линейные пространства с разными скалярными произведениями, отличающиеся друг от друга только выбором нулевого элемента, но с одной и
той же евклидовой метрикой. Предложенный метод поиска решающего правила распознавания по обучающей совокупности объектов приводит к задаче выпуклого квадратичного
программирования. В отличие от классического метода опорных векторов, разработанный
метод обучения назван методом опорных объектов, поскольку он не использует векторы
признаков объектов в явном виде.
Вторая проблемная ситуация заключается в том, что существует широкий класс прикладных задач обучения распознаванию образов, в которых естественные метрики на
множестве объектов принципиально не относятся к классу пред-евклидовых метрик. В
частности, это задачи классификации биологических полимеров, компьютерного анализа
речи, распознавания динамических подписей, целый рад задач распознавания изображений. В результате возникает необходимость создания методологии обучения распознаванию образов, опирающейся на понимание множества объектов реального мира как метрического пространства с произвольной метрикой.
Для разрешения этой проблемной ситуации в настоящей диссертации разработан
способ погружения произвольного метрического пространства в линейное пространство с
индефинитным скалярным произведением, называемое также псевдоевклидовым пространством. В отличие от обычного евклидова линейного пространства, в псевдоевклидовом линейном пространстве метрика определена не для всех пар элементов, и существенно
искажается само понятие дискриминантной гиперплоскости. Разработанный метод обучения распознаванию образов в множествах объектов с произвольной метрикой, аналогичный классическому методу опорных векторов, основан на доказанном в диссертации факте, что для элементов метрического пространства объектов реального мира, погружаемого
в псевдоевклидово линейное пространство как подмножество изолированных точек, сохраняется корректное значение метрики.
Третья проблемная ситуация заключается в том, что, в отличие от частного случая
пред-евклидовой метрики на множестве реальных объектов, метод обучения для произвольной метрики приводит к задаче квадратичного программирования с невыпуклой квадратичной формой в качестве целевой функции, матрица которой содержит как положительные, таки и отрицательные собственные числа. В результате квадрат нормы направляющего вектора искомой дискриминантной гиперплоскости в псевдоевклидовом пространстве может оказаться отрицательным, что разрушает саму идею разделения образов объектов двух классов. Такое явление характерно для обучающих совокупностей, для которых
используемая метрика не удовлетворяет гипотезе компактности, что аналогично линейной
неразделимости образов объектов разных классов в псевдоевклидовом пространстве.
Для разрешения этой проблемной ситуации, во-первых, в критерий обучения введена специальная штрафная функция, ограничивающая корректную область поиска разделяющей гиперплоскости. Во-вторых, разработано параметрическое семейство преобразова4
ний исходной метрики, аналогичное идее классической потенциальной функции4, в котором нулевое значение параметра сохраняет исходную метрику, а его достаточно большое
значение обеспечивает полное разделение классов в любой обучающей совокупности. Конечно, разделимость классов на этапе обучения не гарантирует малой ошибки распознавания на генеральной совокупности, поэтому выбор такого структурного параметра критерия
обучения должен быть основан на соответствующей процедуре кросс-валидации.
Целью диссертации является разработка методологии обучения распознаванию объектов двух классов в множествах объектов, рассматриваемых как метрические пространства с произвольной метрикой.
Задачи исследования. Для достижения поставленной цели в диссертации сформулированы и решены следующие задачи:
1. Разработка математического аппарата погружение метрического пространства с произвольной метрикой в псевдоевклидово линейное пространство.
2. Разработка параметрического семейства решающих правил различения точек двух
классов в псевдоевклидовом линейном пространстве.
3. Разработка критерия обучения распознаванию объектов двух классов в произвольном
метрическом пространстве как обобщение классического метода опорных векторов.
4. Разработка численных методов и алгоритмов обучения распознаванию объектов двух
классов в произвольном метрическом пространстве.
5. Количественное экспериментальное исследование разработанных методов и алгоритмов.
Методы исследования. Теоретическое исследование базируется на общих принципах
теории метрических пространств, аналитической геометрия и линейной алгебры, методе
опорных векторов, методах выпуклой и невыпуклой оптимизации. Экспериментальное исследование проводилось с использованием программно-алгоритмического комплекса, разработанного автором.
Научная новизна. В данной работе впервые сформулирована задача обучения распознаванию образов в множестве объектов, рассматриваемом как метрическое пространство.
Разработан математический аппарат погружение конечного метрического пространства с
произвольной метрикой в псевдоевклидово линейное пространство. Предложено параметрическое семейство решающих правил различения точек двух классов в псевдоевклидовом
линейном пространстве. Разработан критерий обучения распознаванию объектов двух
классов в произвольном метрическом пространстве как обобщение классического метода
опорных векторов. Разработаны численные методы и алгоритмы обучения распознаванию
объектов двух классов в произвольном метрическом пространстве.
Положения, выносимые на защиту.
1. Математический аппарат погружение метрического пространства с произвольной метрикой
в псевдоевклидово линейное пространство.
2. Параметрическое семейство решающих правил линейного различения точек двух классов в
псевдоевклидовом линейном пространстве.
3. Критерий обучения распознаванию объектов двух классов в произвольном метрическом
пространстве, являющийся обобщением классического критерия опорных векторов.
4. Численные методы и алгоритмы обучения распознаванию объектов двух классов в произвольном метрическом пространстве.
Достоверность полученных результатов подтверждается доказательствами сформулированных теорем и экспериментальной проверкой полученных результатов.
Практическая значимость Разработанные алгоритмы позволяют решать широкий
класс прикладных задач обучения распознаванию образов, для которых естественно понимание множества объектов как метрического пространства с произвольной метрикой. В
частности, к этому классу относятся задачи классификации биологических полимеров,
компьютерного анализа речи, распознавания динамических подписей, целый рад задач
распознавания изображений.
5
Связь с плановыми научными исследованиями. Работа выполнена при поддержке грантов Российского фонда фундаментальных исследований №№ 11-07-00409-a, 14-0700661-а, 13-07-13132 офи_м_РЖД.
Апробация работы. Основные положения и результаты диссертации докладывались на конференциях «Интеллектуализация обработки информации ИОИ - 2010» (Республика Кипр, г. Пафос, 2010 г.), «Интеллектуализация обработки информации ИОИ 2012» (Черногория, г. Будва, 2012 г.), «Интеллектуализация обработки информации ИОИ 2014» (Греция, о. Крит, 2014 г.), «Математические методы распознавания образов
ММРО - 2013» (г. Казань, 2013 г.).
Публикации. По тематике работы опубликовано 4 статьи, в том числе 2 статьи в
журналах, рекомендованных ВАК.
Структура и объем работы. Диссертация состоит из введения, 4 глав основного
содержания, заключения и библиографии. Работа содержит 82 страницы основного текста.
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность исследований по разработке методов обучения распознаванию образов в множестве объектов реального мира, понимаемого как метрическое пространство, сформулированы цели и задачи проводимых исследований, положения, выносимые на защиту, приведены сведения о структуре диссертации и ее апробации..
В первой главе дана краткая характеристика известных путей реализации гипотезы
компактности при построении методов обучения распознаванию образов как важнейшего
вида машинного обучения.
Самым распространённым математическим инструментом измерения несходства между объектами реального мира  является представление объектов в компьютере векторами их числовых признаков x()   x1 (),..., xn ()   R n с последующим вычислением евклидовой метрики между векторами признаков (, ) (x(), x())  || x x ||
[(x x)T (x x)]1 2 . Пожалуй, наиболее популярным в мировой литературе методом обучения распознаванию образов с двумя классами объектов в пространстве векторов действительных признаков является метод опорных векторов3. Его особое удобство при решении широкого класса прикладных задач объясняется двумя обстоятельствами.
Во-первых, получаемое решающе правило распознавания выражено в терминах не саT
мих векторов признаков, а лишь их попарных скалярных произведений  x()  x():
  R . Линейное дихотомическое решающее правило d ( x ) (от английского слова decision) имеет вид дискриминантной гиперплоскости в пространстве признаков
 0  yˆ (x)  1, ˆ
 0,
d (x)   jJ aˆ Tj x  bˆ   jJ y j ˆ j xTj x  bˆ
(3)
 0  yˆ (x)  1, j
требуя вычисления скалярного произведения вектора признаков нового объекта x() с
векторами признаков объектов обучающей совокупности x j  x( j ) (1).
Во-вторых, как правило, большинство неотрицательных коэффициентов ˆ , определя-

j
ющих направляющий вектор дискриминантной гиперплоскости aˆ   jJ y j  j x j в (3), оказываются равными нулю, и сохранять в памяти достаточно лишь небольшое число векторов признаков остальных объектов обучающей совокупности Jˆ  { j :  j  0}  J  {1,..., N} ,
называемых опорными, которые дали название методу опорных векторов.
Это обстоятельство лежит в основе общего подхода к распознаванию образов, в котором
предполагается, что объекты представлены лишь некоторой двухместной функцией их парного сравнения K (, ):    R вместо индивидуальных векторов признаков x()R n .
Такой способ представления объектов особенно адекватен широкому классу приложений, в
6
которых трудно выбрать числовые признаки отдельных объектов, но достаточно легко вычислить некоторую числовую характеристику отношения между любыми двумя объектами.
Для того, чтобы процесс построения дискриминантной гиперплоскости (3) сохранил все
преимущества исходного метода опорных векторов, традиционно принято считать, что
функция K (, ):    R должна быть кернелом, т.е. образовывать неотрицательно
определенные матрицы
(4)
K N   K ( j , l ), j, l  1,..., N  , cT K N c  0 , c  R N
для любой конечной совокупности объектов, в частности, удовлетворять условию
K (, )  0 при N  1. Всякий кернел погружает множество объектов реального мира
 в большее гильбертово линейное пространство    , в котором он играет роль
скалярного произведения. Решающее правило распознавания имеет в этом случае вид, аналогичный (3), с тем лишь отличием, что кернел K ( j , ) используется вместо скалярного
произведения векторов признаков:
 0  yˆ ( x )  1,
ˆ j  0 , j  Jˆ .
d ()   jJˆ y j ˆ j K ( j , )  bˆ
(5)
 0  yˆ ( x )  1,
Здесь уже нет векторов признаков в явном виде, поэтому метод (5) уместно называть методом опорных объектов.
В то же время, требование неотрицательной определенности для функции парного
сравнения объектов оказывается слишком обременительным для многих прикладных задач
анализа данных. Альтернативный подход был предложен Р. Дьюиным и его коллегами5,6
под названием реляционного дискриминантного анализа (Relational Discriminant Analysis) и
независимо в работах7,8. (беспризнаковое распознавание образов). Идея заключается в том,
чтобы интерпретировать значения произвольной функции парного сравнения между всяким объектом  и всеми объектами обучающей совокупности {1 ,...,  N } как вектор
вторичных признаков этого объекта x()   xi ()  K (i , ), i  1,..., N  , и применить затем
обычный метод опорных векторов в R N (3):
N
 0  yˆ ()  1,
ˆ j  0 , j  Jˆ .
(6)
d ()   jJˆ y j ˆ j  i 1 K (i ,  j ) K (i , )  bˆ
 0  yˆ ()  1,
Именно такой подход развивается в 9.
С формальной точки зрения решающее правило (6) остается в классе правил опорных
N
объектов, поскольку каждая сумма  i 1 K (i ,  j ) K (i , ) выражает сравнение нового
объекта  только с опорными объектами обучающей совокупности { : j Jˆ } . Однако


j
применение правила (6) требует вычисления его вторичных признаков относительно всех
объектов обучающей совокупности xi ()  K (i , ) , i  J  {1,..., N} , которые все равно
надо держать в памяти. Последнее обстоятельство разрушает основное преимущество метода опорных объектов (5) – возможность не запоминать обучающие объекты, не являющиеся опорными. В работе 10 показано, что решающее правило (6) эквивалентно правилу
5
Duin R.P.W, De Ridder D., Tax D.M.J. Featureless classification. Proceedings of the Workshop on Statistical Pattern Recognition, Prague, June 1997, pp.37-42.
6
Duin R., Pekalska E., De Ridder D. Relational discriminant analysis. Pattern Recognition Letters, Vol. 20, 1999, pp. 11751181.
7
Mottl, V., Dvoenko, S., Seredin, O., Kulikowski, C., & Muchnik, I. Featureless pattern recognition in an imaginary Hilbert
space and its application to protein fold classification. Machine Learning and Data Mining in Pattern Recognition, Springer
Berlin Heidelberg, 2001, pp. 322-336.
8
Середин О.С. Методы и алгоритмы беспризнакового распознавания образов. Дисс. к.ф.-м.н. М, ВЦ РАН, 2001.
9
Середин О.С. Линейные методы распознавания образов на множествах объектов произ-вольной природы, представленных попарными сравнениями. Общий случай. Известия ТулГУ, Естественные науки. Тула: Изд-во ТулГУ,
Вып. 1, 2012, с. 141-152.
10
Середин О.С. Потенциальная функция на множестве объектов распознавания как инстру-мент их попарного сравнительного представления Известия ТулГУ, Естественные науки. Тула: Изд-во ТулГУ, Вып. 1, 2013, с. 177-189.
7
опорных объектов (5) в том и только том случае, когда функция парного сравнения объектов K (, ) обладает свойствами кернела (4).
В первой главе разработан основной понятийный аппарат, лежащий в основе данного
диссертационного исследования, и выдвинуты две основных концепции, развиваемые в
диссертации.
Существование континуума кернелов, метрически эквивалентных всякому заданному кернелу. В первой главе доказано, что если на множестве объектов реального мира
 определен кернел (потенциальная функция) K (, ):    R , то существует
континуум других кернелов, полностью эквивалентных ему в смысле решающего правила
распознавания вида (5), причем с тем же множеством опорных объектов Jˆ  J  {1,..., N}
для всякой обучающей совокупности (1), которые отличаются друг от друга только значениями коэффициентов ˆ j  0, j  Jˆ .
Все эти эквивалентные кернелы определяют одну и ту же метрику на множестве объектов (, ):    R , удовлетворяющую, в дополнение к неравенству треугольника
(7)
(, )  (, )  (, ) ,
еще и требованию условной неотрицательной определенности матриц
N
(8)
PN   2 ( j , l ), j, l  1,..., N  , cT PN c  0 , 1T c   j 1 c j  0 ,
для всех конечных совокупностей объектов. Метрики такого вида названы в настоящей
диссертации пред-евклидовыми метриками (proto-Euclidean metric) 11 в отличие от стандартного понятия евклидовых метрик, определяемых в некотором линейном пространстве
выбором скалярного произведения.
Недостаточность понятия пред-евклидовых метрик и, следовательно, кернела. В
первой главе проведен анализ типичных классов прикладных задач беспризнакового анализа данных, которые приводят к необходимости использования метрик более широкого
типа, нежели пред-евклидовые.
В частности, в задачах классификации биологических полимеров, аминокислотных цепей белков либо нуклеотидных цепей ДНК, общепринятым является способ оптимизационного выравнивания длин двух сравниваемых последовательностей (pair-wise
alignment)12,13. Аналогичный оптимизационный метод парного сравнения сигналов разной
длины, например в задачах компьютерного анализа речи, получил в англоязычной литературе название dynamic time warping14,15. Ещё одним примером задачи, в которой естественным образом порождается функция парного отношения между объектами анализа – это
распознавание форм бинарных растровых изображений на основе сравнения их скелетных
представлений16,17. Все эти методы приводят к некоторым метрикам на соответствующем
множестве последовательностей либо сигналов (7), но эти метрики принципиально не являются пред-евклидовыми (8). Не обладает свойством пред-евклидовости и метрика на
множестве динамических подписей18.
Именно эта проблема является предметом систематического изучения в настоящей
диссертации. Пусть на множестве объектов реального мира, в котором необходимо решать
Термин предложен К.В. Воронцовым.
Needleman S.B., Wunsch, C.D. A general method applicable to the search for similarities in the amino acid sequence of two
proteins. Journal of Molecular Biology, Vol. 48, Issue 3, March 1970, pp. 443-453.
13
Smith T.F., Waterman M.S. Identification of Common Molecular Subsequences. Journal of Molecular Biology, Vol. 147,
1981, pp. 195–197.
14
Salvador S., Chan Ph. Toward accurate dynamic time warping in linear time and space. KDD Workshop on Mining Temporal and Sequential Data, 2004, pp. 70-80.
15
Xiaoyue W., et al. Experimental comparison of representation methods and distance measures for time series data. Data
Mining and Knowledge Discovery, March 2013, Volume 26, Issue 2, pp. 275-309.
16
Местецкий Л.М. Непрерывная морфология бинарных изображений. Фигуры, скелеты, циркуляры. М.: Физматлит,
2009, 288 с.
17
Kushnir O., Seredin O. Parametric Description of Skeleton Radial Function by Legendre Polynomials for Binary Images
Comparison. ICISP 2014, Lecture notes in Computer Science 8509, A. Elmoataz et al. (Eds.),, pp. 520–530. Springer International Publishing Switzerland, (2014.
18
Mottl V., Lange M., Sulimova V., Ermakov A. Signature verification based on fusion of on-line and off-line kernels. Proceedings of the 19th International Conference on Pattern Recognition. Tampa, USA, December 8-11, 2008, pp. 1-4.
11
12
8
задачу обучения распознаванию образов, определена произвольная метрика (7), вообще
говоря, не являющаяся пред-евклидовой (8). В этом случае любой выбор центрального
элемента    приводит к двухместной функции K (, ):    R , не являющейся
кернелом, и метод опорных объектов (5) становится неприменимым в его исходном виде.
Основная причина заключается в том, что исходное произвольное метрическое пространство удается вложить лишь в псевдоевклидово линейное пространство, в котором метрика
определена не для всех пар элементов, и существенно искажается само понятие дискриминантной гиперплоскости.
На первый взгляд, это обстоятельство не позволяет понимать заданную метрику иначе,
как один из видов произвольной функции парного сравнения объектов, и остается лишь
использовать методологию реляционного дискриминантного анализа (6), разрушающую
основное преимущество метода опорных объектов. В данной диссертации используется
существенная специфика метрики как специального вида функции парного сравнения,
удовлетворяющей неравенству треугольника (7). В следующих главах диссертации рассматриваются пути «спасения» преимуществ метода опорных объектов, основанные на
том факте, что для элементов метрического пространства объектов реального мира, погружаемого в псевдоевклидово линейное пространство как подмножество изолированных
точек, сохраняется корректное значение метрики.
В второй главе изложена предлагаемая методология погружение метрического пространства с произвольной метрикой в псевдоевклидово линейное пространство.
Пусть  – некоторое множество (генеральную совокупность) объектов реального мира c заданной на нем произвольной метрикой (, ) (7). Выберем некоторый элемент
   в качестве «центра» метрического пространства и образуем двухместную функцию
(9)
K (, )  (1 2)  2 (, )  2 (, )  2 (, )  .
Будем называть эту функцию общностью пары элементов метрического пространства относительно его центра.
Из определения общности (9) следует, что общность элемента метрического пространства  с самим собой равна квадрату его расстояния до центра K (, )  2 (, ) .
Следовательно, расстояние между любыми двумя элементами однозначно определяется их
общностями друг с другом и с самим собой независимо от выбора центра:
2 (, )  K (, )  K (, )  2 K (, ) .
(10)
Теорема 1. Если K  (, ) – общность двух элементов метрического пространства
относительно центра  , то их общность относительно другого центра  равна
K (, )  K (, )  K (, )  K (, )  K (, ) .
(11)
Теорема 2. Если метрика на множестве объектов является пред-евклидовой (8), то
для любой конечной совокупности объектов при любом выборе центра симметрическая
матрица K N   K ( j , l ), j, l  1,..., N  неотрицательно определена (4).
Из утверждения теоремы 2 следует, что всякая пред-евклидова метрика определяет
множество кернелов на множестве объектов реального мира  .
Предположим для простоты, что множество  конечно   M ,   {1 ,..., M } , причем порядок нумерации элементов в дальнейшем не будет играть роли. Составим симметрическую матрицу значений общности относительно выбранного центра K    K  (i ,  j ),
i, j 1,..., M  . Число строк и столбцов этой матрицы может быть сколь угодно велико, но
обращаться к полному множеству ее элементов не придется ни в каких алгоритмах.
В силу симметричности матрицы K  ( M  M ) все её собственные числа и собственные
векторы действительны, причем собственные векторы попарно ортонормированы. Разумеется, собственные числа и векторы этой матрицы зависят от выбора центра    :
9
 z , j1 
 z,11 
 z , M 1 
M
M




R M , zT z  1, i  j , (12)
,1 R ,..., , M R , z ,1
R ,..., z , j 
R ,..., z , M  
,i , j


0, i  j.




z
z
z
 ,1M 
 , MM 
 , jM 

Матрица K  всегда может быть представлена в виде K    i 1 ,i z ,i zT,i . Для произвольной метрики матрица K  , вообще говоря, не является положительно определенной, поэтому среди ее собственных чисел могут быть как положительные, так и отрицательные числа. Упорядочим собственные числа в порядке убывания, полагая, что ,1  0,..., , p  0 , и
M
, p 1  0,..., , M  0 . Пару целых чисел p  q  M принято называть сигнатурой матрицы K  19,20, которая в нашем случае является матрицей общности заданной метрики.
Теорема 321. Сигнатура матрицы K  не зависит от выбора центра метрического
пространства    .
Теорема 3 показывает, что сигнатура является характеристикой заданной метрики, а не
выбора центра. Значения собственных чисел ,1 ,..., , M , вообще говоря, зависят от выбора
центра    , но после расположения их в порядке убывания число неотрицательных p и
отрицательных q чисел остается неизменным в силу теоремы 3. Условимся все числа ,i
считать неотрицательными и введем обозначения:
,1  0,..., , p  0 , , p 1  , p 1  0,..., , M  , M  0 .
(13)
Составим матрицу ( M M ) из собственных векторов матрицы K  как из столбцов
Z   (z ,1 z , M ) , и свяжем с каждым элементом i конечного множества   {1 ,..., M }
действительный вектор xT,i  xT,i  ( x,1i ,..., x, Mi ) R M , представляющий собой i -ю строку
матрицы Z  , элементы которой j 1,..., p умножены на один и тот же коэффициент ,i , а
дальнейшие элементы j  p 1,..., M – на коэффициент ,i . Введем в рассмотрение квадратную матрицу ( M  M ) , которую будем называть единичной матрицей сигнатуры p :
0 p(M  p ) 
 I
J p   p p
(14)
.
 0(M  p )  p I (M  p )(M  p ) 
В этих обозначениях представление K    i 1 ,i z ,i zT,i как разности K   i 1 ,i z ,i zT,i 
M

p
M
,i z ,i zT,i позволяет записать матрицу общности элементов конечного метрического
пространства в виде
 xT,1J p x,1
xT,1J p x, M   uT,1u,1
uT,1u, M   vT,1 v ,1
vT,1 v , M 


 , x   u,i  R M , (15)
K 
T
T
T
 xT J x
  uT u
  vT v
 ,i  v ,i 
x
J
x
u
u
v
v

,
M
p

,1

,
M
p

,
M

,
M

,1

,
M

,
M

,
M

,1

,
M

,
M
 


 
p
Mp
где векторы u ,i R и v ,iR
являются частями векторов x  ,i .
Таким образом, мы связали элементы произвольного конечного метрического пространства  1 ,..., M  , в котором выбран центральный элемент  , с M -мерными
векторами действительных признаков элементов x ,1 R M ,..., x,M  R M , определяемыми
M собственными векторами матрицы значений общности этого конечного множества и
M  p  (M  p) собственными числами ,1  0,..., , p  0 , , p 1  0,..., , M  0 (12), причем
центральному элементу соответствует нулевой вектор x  0 R M .
i  p 1
Беклемишев Д.В. Курс аналитической геометрии и линейной алгебры. Учебное пособие для вузов. М., Высшая школа, 320 с.
20
Умнов А.Е. Аналитическая геометрия и линейная алгебра: учебное пособие. М., МФТИ, 2011, 544 с.
21
Доказательство теоремы получено Е.О. Черноусовой.
19
10
Для произвольных пар векторов (x, x) линейного пространства R M общее выражение
для элемента матрицы значений общности (15) определяет двухместную числовую функцию K (x, x) : R M  R M  R согласно (14)
(16)
K (x, x)  (x  x )T J p (x  x )  xT J p x .
Здесь нижний индекс сознательно опущен K (x, x) , а не K  (x, x) , поскольку в силу теоремы 3 сигнатура не зависит от выбора центрального элемента    .
Тем самым мы погрузили конечное метрическое пространство   1 ,..., M  с центральным элементом    в M -мерное линейное пространство R M , в котором согласно
(15) определена двухместная числовая функция (16).
Будем говорить, что такое линейное пространство R M натянуто на конечное метрическое пространство   1 ,..., M  .
Рассмотрим свойства двухместной функции K (x, x) (16).
1) Симметричность K (x, x)  K (x, x) .
(17)
2) Билинейность K (cx  cx, x)  cK (x, x)  cK (x, x) .
(18)
Эти два свойства совпадают со свойствами скалярного произведения в линейном пространстве, которое должно обладать еще и третьим свойством:
3) Неотрицательность при совпадающих значениях аргументов K (x, x)  0 .
(19)
Однако последним свойством двухместная функция K (x, x) (16) не обладает, поскольку для некоторых векторов xR M может иметь место неравенство K (x, x)  0 . Действительно, согласно (17) для произвольного вектора согласно (16)
0 p(M  p )   u 
 I
K (x, x)  xT J p x  (uT vT )  p p
 uT u  v T v ,



 0(M  p ) p I (M  p )(M  p )   v 
откуда следует, что
M
(20)
3 ) K (x, x)  0 для векторов x  R , таких что uT u  vT v .
Двухместную числовую функцию K (x, x) (16) принято называть индефинитным скалярным произведением с сигнатурой p  q  M , а само линейное пространство с индефинитным скалярным произведением – псевдоевклидовым пространством22. В частности, в
случае сигнатуры p  M , q  0 , получается обычное евклидово пространство с обычным
скалярным произведением, для которого K (x, x)  0 .
Как следствие, в псевдоевклидовом пространстве R M , натянутом на метрическое пространство   1 ,..., M  , для всех пар векторов  (x, x), xT  (uT , vT ), xT  (uT , vT ) 
определено значение
r 2 (x, x)  (x  x)T J p (x  x)  (u  u)T (u  u)  ( v  v)T ( v  v) ,
(21)
2
2
которое может быть положительным r (x, x)  0 , равным нулю r (x, x)  0 даже при
x  x , либо отрицательным r 2 (x, x)  0 . Метрика в обычном понимании этого термина
(22)
r (x, x)  (u  u)T (u  u)  ( v  v)T ( v  v)
T
T
определена только для тех пар векторов, для которых (u u) (u u)  ( v v) ( v v)  0 .
Если же (u  u)T (u  u)  ( v  v)T ( v  v)  0 , то значение метрики оказывается мнимым как квадратный корень из отрицательного числа.
Таким образом, построенное псевдоевклидово пространство R M не является, вообще
говоря, метрическим, поскольку в нем не для всех пар точек x, x  R M определено значение метрики r (x, x) , но значение квадрата r 2 (x, x) (21) определено для всех пар векторов, являясь отрицательным для некоторых из них.
22
Азизов Т.Я., Копачевский Н.Д. Введение в теорию пространств Крейна. Специальный курс лекций. Симферополь,
ООО Форма, 2010, 112 с.
11
Изометрический образ метрического пространства в псевдоевклидовом линейном
пространстве. В псевдоевклидовом линейном пространстве, натянутом на конечное метрическое пространство   1 ,..., M  , индефинитное скалярное произведение любых
двух векторов xR M и x  R M отличается от обычного скалярного произведения xT x
только единичной матрицей J p сигнатуры p  q  M (16). В то же время собственные числа и собственные векторы матрицы значений общности K  для конечного метрического
пространства с выбранным центральным элементом    (12) определяют координаты
{x,1 ,..., x,M }:
конечного
множества
векторов
в
линейном
пространстве
  x,  R M , зависящих от выбора центрального элемента, в которые отображаются элементы самого метрического пространства и которые играют роль базиса в этом линейном пространстве. Условимся обозначать это конечное подмножество в R M символом
R M,   {x , 1 ,..., x, M }  R M
(23)
и называть образом метрического пространства в псевдоевклидовом линейном пространстве. Разумеется, образ метрического пространства R M,  (23), существенно зависит от центра через собственные числа и собственные векторы матрицы общности (12).
Как говорилось выше (22), метрика в обычном смысле определена в псевдоевклидовом
пространстве R M только для тех пар векторов (x, x) , для которых (u  u)T (u  u) 
( v   v )T ( v   v )  0 . Однако векторы из конечного образа метрического пространства
R M,  (23) являются именно такими. Действительно,
r 2 (x, k , x,l )  (x,k  x,l )T J p (x ,k  x ,l )  xT,k J p x ,k  xT,l J p x ,l  2xT,k J p x ,l ,
т.е. согласно (15) и, далее, (10)
r 2 (x,k , x,l )  K  (, k , , k )  K  (,l , ,l )  2 K  (, k , ,l )  2 (k , l )  0 , k , l  .
(24)
M
Обратим внимание на тот факт, что хотя линейное пространство R , в которое погружено исходное конечное метрическое пространство   {1 ,..., M } , не зависит от выбора
центрального элемента    , погружение (23) существенно зависит от  , однако изометричность погружения опять же никак не зависит от этого выбора.
Частный случай: Погружение метрического пространства с пред-евклидовой
метрикой в евклидово линейное пространство. Предположим теперь, что исходная метрика удовлетворяет, кроме неравенству треугольника (7), еще и требованию условной неотрицательной определенности матриц PN   2 ( j , l ), j, l  1,..., N  для всякой конечной совокупности элементов (8), т.е. cT PN c  0 , 1T c   j 1 c j  0 . Такая метрика названа
выше пред-евклидовой.
Теорема 4. В случае пред-евклидовой метрики матрица K    K (i ,  j ), i, j 1,..., M 
значений общности элементов конечного метрического пространства (9) неотрицательно определена для любого центра    .
В силу утверждения этой теоремы, все собственные числа матрицы K  неотрицательны ,1  0,..., , M  0 , и сигнатура этой матрицы равна p  M , q  0 . Следовательно, матрица K  может быть представлена как матрица обычных скалярных произведений
N
 xT,1 x, 1
xT, 1 x , M 
 .
K 
 xT x
T
x , M x , M 
 ,M , 1
Итак, как и в общем случае, элементы произвольного конечного метрического пространства   1 ,..., M  , в котором выбран центральный элемент    , оказались связаны с M -мерными векторами действительных признаков элементов x , 1 R M ,..., x , M  R M ,
определяемыми M собственными векторами матрицы значений общности этого конечного множества и M собственными числами ,1  0,..., , M  0 , причем центральному элементу соответствует нулевой вектор x  0R M .
12
Отличие частного случая евклидовой метрики от общего случая произвольной метрики
заключается в том, что теперь метрическое пространство погружено в обычное евклидово
линейное пространство, а не в псевдоевклидово, как прежде, т.е. в линейное пространство
с обычным скалярным произведением, обладающим всеми тремя свойствами (17), (18) и
(19). Соответственно, метрика (21)-(22) определена для всех пар точек x, x  R M .
Далее во второй главе определено понятие аффинных операций в псевдоевклидовом
линейном пространстве, которое позволит в следующей главе построить дискриминантное решающее правило различения объектов двух классов, не требующее выбора центрального элемента в исходном метрическом пространстве.
Рассмотрим произвольную конечную неупорядоченную совокупность {x1 ,..., xn } элементов псевдоевклидова пространства x j  R M (15), n  M . Пусть c  (c1 cn )  R n – вектор коэффициентов при элементах совокупности, в сумме составляющих единицу
n
 k =1 ck  1T c  1 , где 1  R n – вектор, составленный из единиц. Линейная комбинация
(25)
xc   k 1 ck x k  R M ,  k =1 ck  1T c  1 ,
называется аффинной комбинацией элементов {x1 ,..., xn } коэффициентами c  (c1 cn ) .
Теорема 5. Квадрат расстояния любого элемента псевдоевклидова пространства
x  R M до аффинной комбинации xc  R M (25) согласно (21) определяется равенством
n
n
(26)
r 2 (xc , x)   k 1 ck r 2 (xk , x)  (1 2) k 1  l 1 ck cl r 2 (x k , xl ) .
Если совокупность {x1 ,..., xn } составлена из произвольных элементов псевдоевклидова
пространства, и элемент x также выбран произвольно, то среди квадратов расстояний
r 2 (xk , xl ) и r 2 (xk , x) могут быть, вообще говоря, отрицательные, и квадрат расстояния
r 2 (xc , x) может также оказаться отрицательным.
Но если в качестве x и x k выступают векторы, соответствующие объектам исходного
метрического пространства x  x ,  , xk  x,k , , k  ,
n
n
n
(27)
r 2 (xc , x, )   k 1 ck r 2 (x,k , x, )  (1 2) k 1  l 1 ck cl r 2 (x,k , x,l ) ,
то расстояния r (x,k , x, )  (k , ) и r (x,k , x,l )  (k , l ) являются вещественными,
r 2 (x, k , x,  )  2 (k , )  0 и r 2 (x, k , x, l )  2 (k , l )  0 .
Тем не менее, метрические расстояния r (xc , x,  ) существуют только в том случае, если
2
r (xc , x, )  0 для любых c . Для произвольной метрики на множестве  последнее условие, вообще говоря, не выполняется, и существуют совокупности элементов исходного метрического пространства , 1 ,..., n  , такие, что r 2 (xc , x, )  0 . Более того, для всякой
такой совокупности может существовать множество аффинных комбинаций xc  R M (25).
Это означает, что вектор xc  R M , являющийся аффинной комбинацией векторов
x ,1 ,..., x,n  R M с некоторыми коэффициентами c (25), может не иметь прообраза ни в
каком расширении метрического пространства  , т.е. может оказаться невозможным даже
мысленно добавить соответствующий элемент c в  , поскольку для него определены
квадраты расстояний до всех других элементов r 2 (xc , x, ) , но не могут быть определены
n
n
n
метрические расстояния r (xc , x, )  r 2 (xc , x , ) , если r 2 (xc , x, )  0 .
В частности, если n  2 , то коэффициенты аффинной комбинации векторов x  R M и
x  R M определяются одним действительным числом c , например, c  1  c и c  c . Тогда согласно (25)
(28)
xc  (1  c)x  cx  R M .


Такой вектор будем называть соосным упорядоченной паре векторов  x , x  . Согласно
(26) для соосного вектора r 2 (xc , x)  c2 r 2 (x, x) , r 2 (xc , x)  (1  c)2 r 2 (x, x) . Если
r 2 (x, x)  0 , то определены метрические расстояния
13
(29)
r (xc , x)  |c| r (x, x) , r (xc , x)  |1  c| r (x, x) .
M
Для любого вектора x  R
(30)
r 2 (xc , x)  (1  c)r 2 (x, x)  cr 2 (x, x)  c(1  c)r 2 (x, x) ,
а квадраты расстояний соосного вектора до исходных векторов определяются равенствами
(31)
r 2 (xc , x)  c2 r 2 (x, x) , r 2 (xc , x)  (1  c)2 r 2 (x, x) .
2
Вообще говоря, квадрат расстояния r (x, x) может быть отрицательным, как и квадраты
расстояний r 2 (xc , x) , r 2 (xc , x) и r 2 (xc , x) .
Но если в качестве x и x выступают векторы, соответствующие объектам исходного
метрического пространства x  x ,  и x  x, , ,   , то расстояние r (x, , x, ) 
(, ) является вещественным, r 2 (x, , x, )  0 , тогда согласно (31) r 2 (xc , x, )  0 и
r 2 (xc , x, )  0 . Для векторов x,  , соответствующих другим элементам метрического пространства  ,
r 2 (xc , x, )  (1  c)r 2 (x, , x, )  cr 2 (x, , x, )  c(1  c)r 2 (x, , x, ) 
(1  c)2 (, )  c2 (, )  c(1  c)2 (, ).
Однако для произвольной метрики на множестве  существуют тройки элементов исходного метрического пространства , ,   , такие, что r 2 (xc , x,  )  0 , и невозможно даже мысленно добавить соосный элемент c в  , поскольку для него не определены метрические расстояния до других элементов r (xc , x, )  r 2 (xc , x, ) .
Аффинное псевдоевклидово пространство, натянутое на изометрический образ
метрического пространства. Аффинная комбинация (25) определена для любой конечной совокупности {x1 ,..., xn } векторов псевдоевклидова пространства R M , в частности, для
образа метрического пространства R M, {x,1 ,..., x,M } R M (23), т.е. для совокупности всех
M векторов, соответствующих элементам исходного метрического пространства   {1 ,..., M }
с выбранным центральным элементом  . Всякая совокупность действительных коэффициентов
(c1
cM ) ,
в
сумме
составляющих
единицу

M
j 1
c j 1 ,
определяет
вектор
xc k 1 ck x, k R M , зависящий от выбора центрального элемента, но находящийся от других
n
векторов x  R M на некоторых расстояниях (27), полностью определяемых коэффициентами
(c1 cM ) . Хотя вектор аффинной комбинации x c и зависит от центра, квадрат его расстояния
r 2 (xc , x) до всякого вектора xR M , быть может, отрицательный, от центра не зависит.
Введенный формализм позволяет перейти к рассмотрению задачи обучения распознаванию образов на множестве объектов, представленных только через отношения произвольной метрики.
В третьей главе рассмотрены дискриминантное решающее правило различения объектов
двух классов, не требующее выбора центрального элемента в исходном метрическом пространстве, и критерий обучения, использующий основную идею метода опорных векторов.
Пусть по-прежнему  есть множество объектов реального мира с заданной на нем
метрикой (7). Обучающая совокупность (1) представлена в компьютере как матрица попарных расстояний между объектами с вместе с известными индексами их принадлежности к одному из двух классов
(32)
( j , l ), j, l 1,..., N , y j  y( j ) =  1, j =1,..., N  .
Целью наблюдателя является построение решающего правила распознавания классов новых объектов  , не представленных в обучающей совокупности, причем единственным свойством каждого нового объекта, доступным наблюдателю, является совокупность
его расстояний до объектов обучающей выборки ( j , ), j = 1,..., N .
Пусть R M – псевдоевклидово линейное пространство, натянутое на конечное множество объектов реального мира   M . Это псевдоевклидово пространство однозначно
14
«привязано» к метрическому пространству  , поскольку в силу теоремы 3 его сигнатура
фиксирована и определяется только метрикой (, ):    R . Всякий выбор некоторого элемента    в качестве центрального ставит в соответствие каждому элементу
 соответствующий ему вектор x,  R M , т.е. определяет изометрический образ
R M,  R M (23) метрического пространства в R M , т.е. r 2 (x,k , x,l )  2 (k , l ) (24).
Дискриминантным диполем будем называть упорядоченную пару векторов
< 1 , 1 >R M  R M , а сами векторы 1 , 1 R M – полюсами диполя23. Рассмотрим множество всех векторов xc  R M , соосных паре <  1 , 1 > в смысле (28) со всеми действительными коэффициентами xc  (1  c)1  c1  R M . Центральной точкой диполя будем
называть вектор x1 2  (1 2)(1  1 ) , c  1 2 . Условимся рассматривать только такие диполи, квадрат расстояния между полюсами которых является положительным и равен единице согласно (21) r 2 (1 , 1 )  r (1 , 1 )  1 .
Пусть x  R M – произвольный вектор в псевдоевклидовом пространстве, например,
вектор x ,  , соответствующий некоторому объекту реального мира  . Тогда формула
(30) определяет квадрат расстояния между x c и x :
(33)
r 2 (xc , x)  (1  c)r 2 (1 , x)  cr 2 (1 , x)  c(1  c)r 2 (1 , 1 ) .
2
В силу предположения r (1 , 1 )  1 эта функция является квадратичной и строго выпуклой функцией действительного коэффициента cR , но может принимать, вообще говоря,
и отрицательные значения. В частности, отрицательным может быть ее минимальное значение min cR r 2 (xc , x) . Тем не менее, пусть cˆx arg min cR r 2 (xc , x) – точка минимума, тогда
вектор xcˆ  (1  cˆx )1  cˆx 1  R M естественно называть проекцией точки x  R M на луч,
образованный диполем <  1 , 1 > , вектор xĉx характеризуется метрическим расстоянием
до центра диполя
r (xcˆx , x1 2 |  1 , 1 )  cˆx  1 2 r ( 1 , 1 )  cˆx  1 2 .
(34)
Центральная идея методологии обучения распознаванию образов в произвольных метрических пространствах, предлагаемая в данной диссертации, заключается в использовании расстояния (34) с учетом знака (cˆx  1 2) как параметрического семейства дискриминантных функций, каждая из которых задает некоторое разбиение псевдоевклидова про 0 , определяемое выбором
странства R M на три части d (x | 1 , 1 )  (cˆx  1 2)r ( 1 , 1 ) 

диполя < 1 , 1 > R M  R M .
Теорема 6. В метрических терминах дискриминантная функция d (x | 1 , 1 ) 
(cˆx  1 2) r ( 1 , 1 ) имеет вид
 0  положительная часть,
1
d (x |  1 , 1 )   r 2 ( 1 , x)  r 2 (1 , x)  = 0  нейтральная часть,
(35)
2
 0  отрицательная часть.
Будем называть нейтральное множество, определяемое согласно (35), дискриминантной гиперплоскостью в псевдоевклидовом пространстве R M :
H ( 1 , 1 )  x  R M : r 2 ( 1 , x)  r 2 (1 , x)  x  R M : d (x |  1 , 1 )  0 .
(36)
В частности, при конкретном выборе центрального элемента    каждому реальному
объекту  соответствует вектор x,  R M , поэтому дискриминантная функция в псевдоевклидовом пространстве (35) фактически определяет дискриминантную функцию на
множестве объектов реального мира:
 0  класс 1,
1
d ( |  1 , 1 )   r 2 ( 1 , x, )  r 2 (1 , x, )  = 0  нейтральное решение,
(37)
2

0

класс

1.

23
Терминология предложена К.В. Воронцовым.
15
Параметрическое семейство дискриминантных функций в псевдоевклидовом линейном пространстве. Для заданной обучающей совокупности (32) задачу обучения
естественно понимать как задачу выбора такого диполя <  1 , 1 > , который определял бы
разбиение множества обучающих объектов на два класса (37), как можно меньше отличающееся от разбиения, заданного «учителем».
Представляется естественным искать дискриминантную функцию, наилучшим образом
разделяющую обучающую совокупность (32) в смысле d ( j |  1 , 1 ) ¤ 0 , выражая узлы
дискриминантного диполя как неизвестные аффинные комбинации векторов
{x,1 ,..., x,N }, в которые отображаются объекты самой обучающей совокупности:
1 =  j 1 c1, j x, j ,  j =1 c1, j =1;
N
N
1 =  j 1 c1, j x, j ,
N

N
c
j =1 1, j
(38)
=1.
Теорема 7. Для всякой точки x,R M и диполя 1 , 1R M (38) выполняется равенство
r 2 (1, x, )  r 2 (1, x, ) = j 1 (c1, j  c1, j )2 ( j , )  (1 2) j 1  l 1 (c1, j c1,l  c1, j c1,l )2( j , l ) .(39)
В равенстве (39) только первая сумма в правой части зависит от предъявленного объекта  , причем в качестве коэффициентов выступают разности c1, j  c1, j , сумма которых для любого диполя 1 , 1 R M должна равняться нулю согласно (38):
N
N
N
a j = c1, j  c1, j ,  j =1 a j = 0 .
Теорема 8. Требование единичной длины диполя выражается равенством
N
N
(1 2) j =1  l =1  2 ( j , l )  a j al  1 .
N
(40)
(41)
Значения коэффициентов (a1 ,..., aN ) (40) определяют ориентацию диполя в псевдоевклидовом пространстве относительно образов объектов обучающей совокупности
{x,1 ,..., x,N }, оставляя свободными как «параллельный перенос» диполя, так и его
«сдвиг» вдоль своей оси. Именно этот «сдвиг» и характеризует вторая двойная сумма в
правой части (39), которая является константой по отношению к предъявленному объекту
 . Обозначим ее символом
N
N
(42)
b = (1 2) j =1  l =1 (c1, j c1,l  c1, j c1,l )2 ( j , l ) .
Мы получили эквивалентное выражение для дискримирантной функции, которая, как
оказалось, полностью определяется N  1 действительными числами (a1 ,..., aN , b) при двух
ограничениях типа равенств:
N

1 N
1 N N
d ( | a1 ,..., aN , b) =  2 ( j , ) a j  b  ¤ 0,  a j = 0,  2 ( j , l ) a j al  1 . (43)
2  j =1
2 j =1 l =1
j =1

Метод опорных объектов для обучения распознаванию образов в произвольном метрическом пространстве. Практически буквальным выражением принципа оптимальной
дискриминантной гиперплоскости, лежащего в основе метода опорных векторов, является
критерий обучения в евклидовом метрическом пространстве, требующий максимизации зазора (марджина в терминологии В.Н. Вапника) между объектами двух классов в обучающей
совокупности y j d ( j )…  0,   max . Мы будем использовать здесь модификацию этого
принципа, предложенную в кандидатской диссертации А.И. Татарчука24, заключающуюся в
том, что всякое нарушение этого неравенства «наказывается» функцией потерь
y j d ( j )  ,
0,
j = 
(44)
1  (1 / ) y j d ( j ), y j d ( j )  .
В качестве критерия обучения естественно искать такую гиперплоскость, которая разделяла бы обучающую выборку на два класса, с одной стороны, с как можно большей величиной зазора 1 2  min , а с другой, с как можно меньшей величиной суммарного штрафа

24



Татарчук А.И. Байесовские методы опорных векторов для обучения распознаванию образов с управляемой селективностью отбора признаков. Дисс. к.ф.-м.н., ВЦ РАН, 2014.
16
для ошибочно классифицированных объектов обучающей выборки

N
j 1
 j . Баланс таких
требований к процессу обучения выражается оптимизационным критерием 1  2 
N
C  j 1  j  min , где C - структурный параметр, определяющий соотношение требований
максимизации зазора и минимизации суммы потерь. С учетом ограничения (43) такой критерий обучения относительно искомых узлов диполя естественно записать как следующую
задачу оптимизации с ограничениями в исходном метрическом пространстве:
1  2  C  N  j  min(a1 ,..., aN , b, , 1 ,...,  N ),
j =1

N
2

(45)
(1 2) y j   l =1   ( j , l )  al  b  …(1   j ),

N
N
N
2
 j…0, j = 1,..., N , (1 2) j =1  l =1   ( j , l )  a j al = 1,  j =1 a j = 0.
Очевидно, что задача обучения инвариантна к изменению масштаба приятой метрики
 2 (, ) , если пропорционально изменить также порог функции потерь   :
N
(1 2) y j   l =1   2 ( j , l )  al  b  … (1   j ) .
(46)


Замена переменных al = al 2 , b = b 2 и C = C/2 позволяет избежать невыпуклой области варьирования переменных и записать критерий как задачу квадратичного программирования, близкую к общепринятой традиции метода опорных векторов3:
 N  N 2 ( j , l ) a j al  C  N  j min(a1 ,..., aN , b, 1 ,...,  N ),
 j =1 l =1
j =1
(47)
  N
2

y

(

,

)
a

b
…
1


,

…
0,
j
=
1,...,
N
.
j
l
l
j
j


 j  l =1
Здесь не учтены ограничения на коэффициенты при объектах обучающей совокупности
N
 j =1 a j = 0 (45), однако решение задачи будет автоматически удовлетворять этим условиям.




В отличие от традиционного метода опорных векторов, это невыпуклая задача квадратичного программирования, поскольку квадратичная форма в целевой функции не являетN
ся условно неотрицательно определенной при  j =1 a j = 0 . Задача становится выпуклой,
только если заранее известно, что метрика является пред-евклидовой (8).
В силу невыпуклости задачи обучения можно говорить лишь о поиске локального минимума критерия с линейными ограничениями-неравенствами (47). Такая задача эквивалентна поиску седловой точки функции Лагранжа, аргументами которой, наряду с целевыми переменными (a1 ,..., aN , b, 1 ,...,  N ) , являются также неотрицательные множители Лагранжа, которые обозначим как (1 ,...,  N ) для первой группы ограничений и (1 ,...,  N )
для второй.
Теорема 9. Двойственная форма задачи обучения (47) имеет вид:
N
N
N
2

 j =1  j  (1 4) j =1  l =1 y j yl  ( j , l )  j l  max(1 ,...,  N ),
(48)
 N
y

=
0,
0
„

„
C
,
j

1,...,
N
.

j
 j =1 j j
Ее решение (1 ,...,  N ) полностью определяет параметры решающего правила распознавания, удовлетворяющие необходимому условию минимума критерия (47):

a j = (1 /2) y j  j ,

N
j =1
a j = 0, b =
(1 /2) j :0< 

j <C
 j  l :
l >0

2 ( j , l ) yl  l  C  j :
j :0<  j < C
j =C
yj
,
j


(49)
и значение максимального зазора в (45) 1 2 = (1 2) j =1  l =1 y j yl 2 ( j , l )  j l .
(50)
Однако в случае произвольной метрики решение «наивной» двойственной задачи (48)
может привести к отрицательному значению квадрата максимального зазора  2  0 в (50).
Требование максимизации зазора 1 2  min в исходном критерии (45) равносильно требоN
17
N
ванию минимизации квадратичной формы (50), которая в общем случае не является условно неотрицательно определенной, и может принимать сколь угодно большие по модулю
отрицательные значения. В то же время по своей сути зазор является действительным чисN
N
лом, т.е.  2  0 , поэтому требование  j =1  l =1 2 ( j , l ) a j al  min должно быть допол-




нено в задаче обучения (47) ограничением  j =1  l =1 2 ( j , l ) a j al  0 . Если метрика
является евклидовой, то это ограничение никогда не будет нарушаться и никак не исказит
идею обучения.
Учет этого ограничения равносилен введению в двойственную задачу (48) дополнительN
N
ного ограничения  j 1  l 1 y j yl 2 ( j , l )  j l 0 . Вместо строгого ограничения в дисN

N

сертации используется штрафная функция, «почти точно» выражающая его требование:
N
N
f (1 ,...,  N )  D exp  D  j 1  l 1 y j y l   2 ( j , l )   j  l ,
(51)


где D – достаточно большое число, значение которого само должно ассоциироваться с
«очень большим» штрафом, например, D  1010 .
f (1,...,  N )
Действительно, такая функция принимает большое
значение D при нулевом значении аргумента
(квадратичной формы), быстро стремится к нулю
при даже небольших положительных значениях, и
уходит в бесконечность при отрицательных значеD
ниях аргумента:
N N


,
y j yl   2 ( j , l )   j  l ,


N N
j 1 l 1

y j yl   2 ( j , l )   j  l

N N

2
j 1 l 1
f (1 ,...,  N ) D 0,  y j yl   ( j , l )   j  l 0,
0
j 1 l 1

N N
Рис.
1. Штрафная функция, не до
2

0,
y
y

(

,

)




.
пускающая
отрицательных значений



j
l
j
l
j
l

j 1 l 1
квадратичной формы.

С учетом штрафной функции предлагается вместо «наивной» двойственной задачи (48)
решать задачу
N N
N


1N N
2
2


y
y

(

,

)



D
exp

D
 j  j l 
  y j yl   ( j , l )   j  l max(1 ,...,  N ),
j
l  j l
 j =1
4 j =1 l =1
 j 1 l 1

(52)
N
 y  = 0, 0 „  „ C 2, j  1,..., N .
j
 j =1 j j
Решение двойственной задачи непосредственно определяет решающее правило классификации всякого объекта  , в том числе и не участвующего в обучающей совокупности (43). Для классификации нового объекта  достаточно сравнить его по расстоянию ( j , ) только с опорными объектами обучающей совокупности, для которых множители Лагранжа оказались положительными  j  0 , остальные объекты можно не держать в памяти. В этом состоит главное преимущество метода опорных объектов.
Обучение можно считать удачным, если в результате решения двойственной задачи
(52) удалось найти решающее правило (43), правильно классифицирующее объекты обучающей совокупности с достаточно большим значением зазора между классами  (50), т.е.
N
N
с малым значением  j =1  l =1 y j yl 2 ( j , l )  j l  0 . Это значение будет гарантирован-


но положительным, поскольку область отрицательных значений «отрезана» штрафной
функцией. Как правило, в случае удачного обучения число опорных объектов оказывается
небольшим по отношению к общему размеру обучающей совокупности.
Класс метрических дискриминантных решающих правил возрастающей сложности.
Очевидно, что разделяющая способность класса решающих правил d(|a1 ,..., aN , b)¤ 0 (43),
выражаемая максимально достижимым зазором  на фиксированной обучающей совокупно18
сти (50), зависит от принятой метрики (, ) . В диссертации предложено семейство преобразований исходной метрики, гарантированно повышающих ее разделяющую способность.
12
1
1  exp  2 (, )   ,   0 .
(53)
(,  | ) 


Заметим, однако, что это повышение разделяющей способности метрики не обязательно
ведет к улучшению качества решающего правила на генеральной совокупности.
Теорема 10. Если (, ) есть метрика на
( | )
 , то (,  | ) тоже метрика при любом
0
  0 , причем (,  | )  (, ) при   0 .
Поскольку (53) есть метрика, то все сказанное в предыдущих разделах остается справедливым по отношению к ней. Непосредственная
подстановка (53) в решающее правило классификации объектов метрического пространства (43),
в исходную «наивную» задачу обучения (45) и
далее во все выражения вплоть до двойственной
задачи (52) приводит к простой замене
 2 ( j , l )  на 1  1 exp 2(, )  ,
причем в силу замечания (46) коэффициент не
имеет значения, так что подставлять достаточно
 1 exp  2(, )  .




Кроме того, учет условий


1

  0, 01

N

Рис. 2. Преобразование метрики.
a = 0 и, соответственно,
j =1 j

N
j =1
y j  j = 0 в (48) делает
подстановку еще более простой – достаточно заменить  2 ( j , l )  на exp  2 (, )  ,
и использовать класс решающих правил
N
N
d ( | a1 ,..., aN , b, ) = (1 2)   j =1 exp  2 ( j , )  a j  b  ¤ 0,   0,  j =1 a j = 0 ,
(54)


Таким образом, вместо одного параметрического семейства решающих правил (43) при
  0 и одной задачи обучения (47), мы получили класс параметрических семейств решающих правил и соответствующих им задач обучения, определяемых выбором еще одного
дополнительного параметра   0 .
Обучение во вложенных семействах дискриминантных решающих правил возрастающей сложности. С ростом параметра  увеличивается «свобода» выбора решающего
правила классификации в процессе обучения. В силу последнего обстоятельства параметр
 уместно назвать структурным параметром критерия обучения. Все сказанное выше есть
частный случай при   0 .
В третьей главе доказано, что для любой метрики (, ):    R существуют такие обучающие совокупности (32), которые не могут быть правильно классифицированы
ни при каких значениях параметров решающего правила (a1 ,..., aN , b) (43). В то же время,
при достаточно большом значении структурного параметра  существует решающее
правило (54), правильно классифицирующее любую обучающую совокупность. Выбор
подходящего значения  по единственной обучающей совокупности возможен только на
основе некоторого внешнего метода контроля обобщающей способности обучения, например, путем применения той либо иной процедуры кросс-валидации.
В четвертой главе рассмотрены пути численной реализации двойственной задачи
обучения распознаванию образов в множестве объектов с произвольной метрикой (52),
(49)-(50), и приводятся результаты экспериментального исследования предложенных в
диссертации методов обучения.
Вообще говоря, в случае произвольной метрики задача (52) со штрафной функцией не
является выпуклой. В то же время, опыт показывает, что эта невыпуклость не является
19
«злостной», во всех экспериментах глобальный минимум критерия достигался в результате
применения обычных итерационных методов, разработанных для решения задач выпуклого программирования. В данной работе использовался пакет программ, созданный Н.А. Разиным25 и основанный на стандартном методе внутренней точки.
Экспериментальное исследование разработанной методологии обучения распознаванию образов в массивах объектов, рассматриваемых как метрические пространства с произвольной метрикой, проведено на примере практической задачи верификация личности
по динамической подписи (on-line signature). Задача заключается в проверке нулевой гипотезы о том, что рассматриваемая подпись действительно принадлежит заявленному автору
(genuine signature), против альтернативной гипотезы, что подпись является сознательной
подделкой (skilled forgery).
Рассматриваются динамические подписи из базы данных SVC 2004 26, каждая из которых вводится в компьютер непосредственно в процессе написания (online), и представлена
многокомпонентным дискретным сигналом  индивидуальной длины, отражающим ее
геометрические и динамические особенности. Степень несходства подписей (, ) , играющая роль метрики, вычисляется на основе парного выравнивания соответствующих
сигналов разной длины27. Такая метрика, вообще говоря, не является евклидовой в том
смысле, что условие (8) может не выполняться для некоторых совокупностей объектов.
Проявление этого факта мы увидим в результатах эксперимента.
Массив содержит динамические подписи 40 лиц zZ по 20 для каждого из них, причем 10 подписей являются настоящими и еще 10 подделками. Таким образом, обучающая
совокупность для каждой персоны  z =  j , j =1,..., N  состоит из N = 20 подписей, представленных матрицей (20  20) попарных расстояний ( j , l ) и снабженных индексом
класса y j =1 (настоящая) либо y j =  1 (подделка).
Общий эксперимент заключался в обучении верификации истинности подписи каждого лица zZ = 1,..., 40 согласно (52), (49)-(50) и далее (54) с выбором структурного параметра преобразования метрики  по (53) методу скользящего контроля. В 37 частных экспериментах скользящий контроль дал значение структурного параметра, близкое к нулю,
что говорит о хорошей разделимости обучающей совокупности с исходной метрикой. В
остальных 3-х экспериментах исходная метрика не обеспечила разделимости обучающей
совокупности, и по скользящему контролю были выбраны значения   0,3  0, 6 .
Ошибка скользящего контроля составила в среднем 3,65% и колебалась от 0% (21 случай) до 15% (2 случая).
В заключении перечислены следующие основные результаты:
1. Разработан математического аппарата погружение метрического пространства с произвольной метрикой в псевдоевклидово линейное пространство.
2. Разработано параметрического семейства решающих правил различения точек двух
классов в псевдоевклидовом линейном пространстве.
3. Разработан критерия обучения распознаванию объектов двух классов в произвольном
метрическом пространстве как обобщение классического метода опорных векторов.
4. Разработаны численные методы и алгоритмы обучения распознаванию объектов двух
классов в произвольном метрическом пространстве.
5. Проведено количественное экспериментальное исследование разработанных методов и
алгоритмов на реальных данных.
Разин Н.А. Выпуклые критерии и параллелизуемые алгоритмы селективного комбинирования разнородных представлений объектов в задачах восстановления зависимостей по эмпирическим данным. Дисс. к.ф.-м.н. ВЦ РАН, 2013.
26
SVC 2004. First International Signature Verification Competition. [Электронный ресурс]
URL: http://www.cs.ust.hk/svc2004/index.html
27
Mottl V., Lange M., Sulimova V., Ermakov A. Signature verification based on fusion of on-line and off-line kernels. Proceedings of the 19th International Conference on Pattern Recognition. Tampa, USA, December 8-11, 2008, pp. 1-4.
25
20
Список публикаций
[1] Абрамов В.И., Середин О.С., Сулимова В.В., Моттль В.В. Эквивалентность потенциальных функций и линейных пространств представления объектов произвольной
природы. Доклады 8-й Международной конференции «Интеллектуализация обработки информации», Кипр, Пафос, 17-24 октября 2010 г., с. 9-12. ООО «МАКС Пресс».
[2] Абрамов В.И., Середин О.С., Сулимова В.В., Моттль В.В. Метод опорных объектов
для обучения распознаванию образов в евклидовых метрических пространствах. Доклады 9-й международной конференции «Интеллектуализация обработки информации ИОИ-2012», Будва, Черногория, 16-22 сентября 2012 г. М.: Торус Пресс, 2012,
с. 5-8.
[3] Абрамов В.И., Середин О.С., Моттль В.В. Обучение распознаванию образов в
евклидовых метрических пространствах по методу опорных объектов. Известия
ТулГУ, Естественные науки. Тула: Изд-во ТулГУ, Вып. 2, 2013, с. 119-136.
[4] Середин О.С., Абрамов В.И., Моттль В.В. Аффинные операции в псевдоевклидовом линейном пространстве. Известия ТулГУ, Естественные науки. Тула: Изд-во
ТулГУ, Вып. 2, 2014, с. 125-139.
Жирным шрифтом выделены статьи в журналах, рекомендованы ВАК. Личный вклад
соискателя в работах с соавторами заключается в следующем:
[1] Доказано существование континуума линейных пространств со скалярным произведением, порождающих одну и ту же пред-евклидову метрику.
[2,3] Разработан метод обучения распознаванию образов на множествах объектов, в
которых напрямую определена лишь пред-евклидова метрика вместо потенциальной
функции, существенно более сложной по своей математической структуре.
[4] Разработан математический аппарат обобщения методологии обучения в метрических пространствах с пред-евклидовой метрикой на случай произвольной метрики.
21
Абрамов Вадим Игоревич
Метод опорных объектов для обучения распознаванию образов в произвольных метрических пространствах
АВТОРЕФЕРАТ
Подписано в печать 15.10.2014.
Формат 60  84 1/16. Усл. печ. л. 1,0. Тираж 100 экз. Заказ № ????.
Федеральное государственное автономное образовательное учреждение высшего профессионального образования «Московский физико-технический институт
(государственный университет)»
Отдел оперативной полиграфии «Физтех-полиграф»
141700, Московская обл., г. Долгопрудный, Институтский пер., 9
22
Скачать