РОЛЬ МЛАДЕНЧЕСКИХ ЗРИТЕЛЬНЫХ СИСТЕМ В

реклама
11
РОЛЬ МЛАДЕНЧЕСКОЙ ЗРИТЕЛЬНОЙ СИСТЕМЫ В РАСПОЗНАВАНИИ ОБРАЗОВ1
Роберто А. Вазкуез2, Умберто Сосса3
2
Center for Computing Research, National Polytechnic Institute, Av. Juan de Dios Batiz s/n Col.
Nueva Industrial Vallejo, CP. 07738, Mexico, D.F., roberto.a.vazquez@gmail.com
3 Center for Computing Research, National Polytechnic Institute, Av. Juan de Dios Batiz s/n Col.
Nueva Industrial Vallejo, CP. 07738, Mexico, D.F., hsossa@cic.ipn.mx
Большинство исследований в распознавании образов сфокусировано на
статистических, синтаксических, комбинационных, невральных и нечетких методах.
Вопреки их весомости при решении сложных проблем, они не способны работать в
полную силу, пока новые механизмы базируются на текущем и будущем изучении
невральных процессов человеческого мозга. Например, младенцы способны
выполнять две наиболее востребованные и сложные проблемы в распознавании
образов: распознавание лица и 3D объектов. В данной статье обсуждается некоторые
результаты исследований младенческой зрительной системы и затем описывается,
каким образом эти аспекты могут быть применены для повышения точности
невральных моделей в задачах распознавания образов.
Введение
Классификация является фундаментальной
способностью при обработке информации,
которая
предоставляет
возможность
точного распознавания и отклик на
неизвестные образцы элементов близких
классов.
Классификация
объектов
облегчает людям задачу эффективного
распределения ресурсов [16]. В связи с
тем, что природа классификации является
адаптивной, ни для кого не станет
секретом,
что
классификационные
способности появляются в младенчестве.
Такие
способности
помогают
в
младенчестве своевременному и быстрому
изучению многих объектов окружающего
мира.
Дети
обладают
несколькими
возможностями, такими как обучение,
запоминание и распознавание. Дети
выходят из младенческого периода со
способностью к распознаванию фигур и
хранению
точных
воспоминаний
прошедших
событий,
недавнее
исследование подтвердило, что даже
грудные
младенцы
способны
на
протяжении очень длительного времени
сохранять информацию [8].
1
Ученые
полагают,
что
мозг
новорожденного
является
точной
уменьшенной версией мозга взрослого
человека,
который
полностью
«монтируется»
при
рождении.
На
сегодняшний
день
известно,
что
младенческий мозг – это динамическая
структура; он совершает множество новых
связей каждый день, пока растет.
Исследователи основываются на том, что
младенцы начинают распознавать хорошо
знакомые стимулы еще на первом году
жизни (например, мамино лицо) [7].
Это подтверждается тем, что младенцы
способны
выполнять
две
наиболее
востребованные и сложные проблемы в
распознавании образов: распознавание
лица и 3D объектов.
В данной статье будут освещены
некоторые
результаты
исследований
младенческой зрительной системы и
представлено описание того, каким
образом эти аспекты могут быть
использованы для решения некоторых
проблем
распознавания
образов
повышающих точность ассоциативных
воспоминаний.
Ограничения ассоциативных
воспоминаний
Economically supported by SIP-IPN under grant 20071438 and CONACYT under grant 46805.
12
Многие
исследования,
включающие
ассоциативные
воспоминания
(АВ),
выносятся на обозрение в последнем
десятилетии. АВ могут быть рассмотрены
как специфический вид нервной сети,
специально предназначенной для отзыва
выходящих
образов
на
основе
принимаемых образов, которые могут
обнаруживаться
измененными
под
воздействием некоторых видов шумов, см.
например [1], [2], [6], [13], [14], [15] и [17].
Многие из этих ассоциативных моделей
имеют некоторые ограничения, такие как
предел их применяемости в реальных
жизненных
проблемах.
Надлежащим
образом для достижения наилучшей
характеристики принимаемые образы
должны
соответствовать
нескольким
условиям. Например, принимаемые образы
могут быть искажены только аддитивным
или субстрактивным шумов, но не обоими
или только смешанным шумом.
Основная проблема при работе с
реальными изображениями заключается в
том, что они могут претерпевать резко
выраженные изменения. Примерами этих
изменений
являются
преобразования
изображения,
такие
как
яркостные
изменения, масштабирование, повороты и
другие ориентации. Работа с данными
видами изменений моделей, подобно
описанным в [1], [2], [6], [13] и [17], может
вызвать
появление
неожиданных
результатов,
обусловленных
их
ограничением.
пространственные частоты [11]. Линейная
системная модель (ЛСМ) выдвинутая
Банком и Саларатеком, основана на
предположении,
что
новорожденный
предпочитает смотреть на то, что он лучше
видит. Распространенный способ описания
этого ограничения осуществляется на
основе:
контрастной
чувствительной
функции (КЧФ) объекта; амплитудного и
фазового спектра сигнала возбуждения,
получаемого путем разложения сигнала
возбуждения на синусоиды различных
пространственных частот [12].

CSF ( f )  k s   k  e    k
(1)
(генеральная
форма
представлена
Мовшоном и Киорпесом [3]), где   0.5 ,
  4 , ks  20 , k  0.8 и   0.23  f .
КЧФ отображает инверсию контраста, что
является необходимым для обнаружения
синусоид различных пространственных
частот [12].
Разработанный метод
Ассоциативные воспоминания являются
мощным
инструментарием,
широко
используемым в распознавании образов,
но они нуждаются в усовершенствовании
для возможности их использования при
решении сложных проблем. Если мы
строим аналогии относительно младенцев,
мы может сказать, что ассоциативная
память
может
прослеживаться,
гипотетически, как мозг младенца.
Младенческая зрительная система
В течение нескольких месяцев от
рождения, ребенок способен различать
одно лицо среди других. Гипотетически
функциональная
роль
восприятия
заключается в сборе статистических
структур сенсорных раздражителей из
условия,
чтобы
соответствующие
активности могли быть взяты для
максимизации
шансов
выживания.
Выдвинул гипотезу для нервной системы
единственно возможный путь собирания
статистических структур заключался в
устранении избыточности на сенсорных
выходах [9].
Зрение ограничено с рождения (рис. 1) так,
что преобразовываются только низкие
(a)
(b)
(c)
(d)
(e)
(f)
Рис. 1. Изображения, воспринимаемые младенцем:
(а) новорожденным, (b) 8-недельным, (c) 16недельным, (d) 3-месячным, (e) 6-месячным, (f)
взрослым
Это означает, что АВ должны быть
способны
решать
те
комплексные
проблемы,
которые
может
решать
младенец (например, распознавание лица
матери или любимых игрушек).
Как мы выше отмечали, зрение младенца
лежит
в
низких
пространственных
частотах. Учитывая то, что ассоциативная
память может рассматриваться как мозг
младенца, она нуждается в получении
только низких частот из принимаемых
13
образов, как это делает младенец
(например, ЛСМ).
Для простоты вместо имитации поведения
зрительной
системы
младенца
воспользуемся синусоидами различных
пространственных частот, ЛСМ и КЧФ,
таким образом, мы моделируем поведение
зрительной системы младенца на любом
уровне развития, используя фильтры
низких частот для устранения высоких
частот.
Универсальный фильтр может быть
рассмотрен как слабое приближение
зрительной
системы младенца, это
обусловлено
исключением
из
рассмотрения высокочастотных компонент
из изображения. В том случае, если
применить эти фильтры, гипотетически
полученное изображение может выглядеть
как образ, воспринимаемый младенцем на
определенной стадии его жизни. Размер
маски, используемой для фильтрации
изображения, может быть связан с
различными этапами жизни младенца.
Например, маска размером 1 соответствует
зрению взрослого. Если же увеличить
размер маски, она будет соответствовать
зрению 6-месячного младенца. В том
случае, если продолжить увеличение,
маска будет соответствовать зрению 16недельного младенца и так далее, пока
маска не будет соответствовать зрению
новорожденного. На рис. 2 показаны
изображения, отфильтрованные масками
разных размеров.
Adult
vision
sixmonth
vision
threemonth
vision
Рис. 2. Изображения, отфильтрованные масками
разных размеров. Каждая группа соответствует
зрительной системе младенца на разных стадиях.
Строки
1-3
были
профильтрованы
с
использованием маск размером (1х1), (5х5) и (9х9)
соответственно. Первая строка взята из базы
данных COIL100.
Однажды смоделировав младенческое
зрение, мы можем увеличить точность
ассоциативного
воспоминания
посредством следующих действий:
1. При моделировании зрительной системы
младенца используется фильтр.
2. Отброс высоких частот из принятого
изображения
путем
применения
выбранного фильтра.
3. Преобразование изображения в вектор
посредством
стандартного
метода
сканирования изображения.
4. Выстроить
цепь
ассоциативных
воспоминаний, см. [14] и [15] для
уточнения,
где
каждый
x
отфильтрованным изображением, объекта
восприятия
младенца,
и
y
первоначальным изображением объекта,
воспринимаемого взрослым.
Надлежащим
образом
для
отмены
различных состояний объекта часто
используются способы представления
объекта, которые ранее никогда не
воспринимались ассоциативной памятью:
1. При моделировании зрительной системы
младенца
использующей
одинаковые
фильтры, применяемые для построения
цепи ассоциативных воспоминаний.
2. Отброс высоких частот из принятого
изображения.
3. Преобразование изображения в вектор.
4. Отзыв ассоциирующихся изображений, см.
[14], [15] для уточнения..
Экспериментальные результаты
В этом разделе тестировалась точность
разработанного метода с использованием
двух баз данных. Первая база данных [5]
состоит из изображений трехмерных
объектов различной ориентации (от 0 до 95
градусов
с
шагом
5
градусов),
масштабными и некоторыми яркостными
изменениями. Вторая база данных [4]
состоит из изображений лиц при
различной
жестикуляции
каждого
человека.
В первом эксперименте ассоциативная
память была обучена пяти разным
изображениям объектов с поворотом 0
градусов, используя модель зрительной
системы младенца. Однажды обучив
ассоциативно, также как это делает
младенец,
мы
предположили,
что
запоминаемые объекты используются в
период обучения, даже если они
представлены с различных точек зрения
(см. рис.3).
14
Рис. 3. Некоторые изображения объектов,
используемые при тестировании правильности
разработанного метода, наблюдаемого при разных
ориентациях, масштабировании и яркостных
изменениях.
Первая
строка
соответствует
изображению, используемому для обучения памяти
Во втором эксперименте ассоциативная
память была обучена с использованием
пяти изображений лиц [4]. Однажды
обученная ассоциативная память подобно
тому, как это делает младенец, мы
предположили, что запоминаемые лица
используются в процессе обучения, даже
если люди изображены с различной
жестикуляцией. (см. рис. 4).
Рис. 4. Некоторые изображения лиц, используемые
при тестировании правильности разработанного
метода.
Первая
строка
соответствует
изображениям,
используемым
обучения
ассоциативных моделей.
Обсуждение результатов
Точность, обеспечиваемая классическими
ассоциативными моделями ([1], [2], [6],
[13] и [17]) с одинаковыми базами данных
и условиями, в среднем составляет менее
20 %. Используя модель, описанную в [15],
точность в среднем составляет 55 %.
Точность, обеспечиваемая нашим методов,
использующим
искусственную
зрительную
систему
младенца
и
предыдущие модели, повышается до более
чем 85 %.
Мы
смоделировали
различные
конфигурации младенческой зрительной
системы (использующие универсальные
фильтры). Размеры маск варьировались от
1 до 127, увеличиваясь с шагом 2. Исходя
из
этих
конфигураций,
построены
графики,
отображающие
поведение
принятого метода в каждом эксперименте.
Как вы можете увидеть из рис. 5(а),
точность разработанного метода в целом
улучшается при увеличении размера
маски.
Наибольшие
различия
конфигураций
зрительной
системы
младенца,
используемые
в
этом
эксперименте, получены с завышенной
точностью ассоциативной модели. В
среднем процент вспоминания на всех
выполненных
этапах
эксперимента
составляет 83 %. Наихудший результат (55
%) был получен при использовании маски
размером 5. Лучший результат (97 %)
соответствует маске размером 67.
Остальные эксперименты были выполнены
с использованием объектов одинаковых
цветов. Хотя точность разработанного
метода значительно ухудшилась, в
искусственную
зрительную
систему
младенца была добавлена завышенная
точность ассоциативной модели. Как вы
можете видеть из рис. 5 (b), наихудшее
выполнение (40 %) было установлено при
использовании фильтра размером 3 и
лучшее исполнение (85 %) было
зафиксировано с размером фильтра 65.
Последний эксперимент был выполнен с
различными группами лиц. Как вы можете
видеть из рис. 5 (с), наихудший результат
(52 %) был зафиксирован с фильтром
размером 77 и лучший результат с
фильтром размером 37.
(a)
(b)
(c)
Рис. 5. Графики, отображающие поведение
предположения в трех экспериментах: (а) 3D
объектов, (b) 3D объектов одинакового цвета, (c)
лиц
Заключение
В данной статье рассмотрено, как путем
отбора для расчета низкочастотных
ответов младенческой зрительной системы
может
быть
усовершенствовано
исполнение ассоциативных моделей [14],
[15]. Разработанная модель тестировалась
с
использованием
двух
банков
изображений
(включающих
3D
15
изображения и различные лица) и
сравнивалась
с
классическими
ассоциативными моделями.
Предложенные работы очень хороши при
различных
экспериментальных
преобразованиях изображений, таких как
масштабирование, изменение яркости и
ориентации, деформации. Разработанная
модель имеет значительные преимущества
перед предыдущими ассоциативными
моделями [1], [2], [6], [13] и [17], которые
не поддерживали сложных преобразований
изображений.
В целом точность разработанного нами
метода при распознавании 3D объектов и
лиц составила 82 %. Получено, что для
некоторых конфигураций, результаты
повышались до 95 %. Эти результаты
значительно превышают те, которые
получены
при
помощи
различных
ассоциативных воспоминаний.
Полученные ободряющие результаты
означают, что изучение поведенческих и
нервных процессов человеческого мозга
могут продвигать био вдохновленные идеи
для решения сложных задач распознавания
образов.
Это только первый шаг; на сегодняшний
день мы исследуем другие аспекты
младенческой зрительной системы, такие
как внимание, обучение и выделение
характерных особенностей, что в общей
сложности дает больше объяснений для
решения этих проблем: распознавания
лица и объемных объектов. Мы питаем
уверенность в том, что изучение
человеческого мозга обеспечит нас
некоторыми полезными сигналами для
решения этих сложных проблем.
Список литературы
1. T. Kohonen. Correlation matrix memories // IEEE
Trans. on Computers. - 1972. - Vol. 21,No.4. P.353-359.
2. J.J. Hopfield. Neural networks and physical
systems with emergent collective computational
abilities // PNAS. - 1982. - Vol.79, No. 8. - P.
2554-2558.
3. J.A. Movshov, L. Kiorpes. Analysis of the
Development of Spatial Contrast Sensitivity in
Monkey and Human Infants // Journal of the optical
society of America A. - 1988. - Vol. 5, No. 12. - P.
2166-2172.
4. L. Spacek. Collection of facial images: Grimace.
Available
from
http://cswww.essex.ac.uk/mv/
allfaces/grimace.html, 1996.
5. S.A. Nene. Columbia Object Image Library (COIL
100) // Technical Report No. CUCS-006-96.
Department of Computer Science, Columbia
University. 1996.
6. G.X. Ritter, et al. Morphological associative
memories // IEEE Trans. on Neural Networks. 1998. - Vol. 9, No. 2. - P. 281-293.
7. C.J. Mondloch, et. al. Face Perception during Early
Infancy // Psychological Science. - 1999. - Vol. 10,
No. 5. - P. 419-422.
8. L.J. Carver, P.J. Bauer, C.A. Nelson. Associations
between Infant Brain Activity and Recall Memory
// Developmental Science. - 2000. - Vol. 3, No. 2. P. 234-246.
9. H.B. Barlow. Redundancy Reduction Revisited //
Network: Computation in Neural Systems. - 2001. Vol. 12. - P. 241-253.
10. P.C. Quinn. Beyond Prototypes: Asymmetries in
Infant Categorization and what they Teach us about
the Mechanisms Guiding Knowledge Acquisition //
Advances in child developmental and behavior. 2002. - Vol. 29. - P. 161-193.
11. M.S. Banks, A.P. Gindsburg. Infant Pattern Vision:
a New Approach based on the Contrast Sensitivity
Function // Journal of experimental child psychogy.
- 2002. - Vol. 31. - P. 1-45.
12. F. Acerra, Y. Burnod, S. de Schonen. Modelling
Aspects of the Face Processing in Early Infancy //
Developmental Science. - 2002. - Vol. 5, No. 1. - P.
98-117.
13. H. Sossa, R. Barrón, R. A. Vázquez. New
associative memories for recall real-valued patterns
// LNCS. - 2004. - Vol. 3287. - P. 195-202.
14. R.A. Vazquez, H. Sossa. Associative Memories
Applied to Image Categorization // LNCS. - 2006 Vol. 4225 - P.549-558.
15. R.A. Vazquez, H. Sossa, B.A. Garro. A New Bidirectional Associative Memory // LNAI. - 2006 Vol. 4293. - P. 367-380.
16. J.L. Ramsey-Rennels, J. H. Langlois. Infants’
Differential Processing of Female and Male Faces //
Current Directions in Psychological Science. 2006. - Vol. 15, No. 2. - P. 59-62.
17. P. Sussner, M. Valle. Gray-Scale Morphological
Associative Memories // IEEE Trans. on Neural
Networks. - 2006. - Vol.17, No.3. - P.559-570.
Скачать