Robotics and the Q-analysis of Behaviour Фомин А.Д., 345 группа 2008 год • Анализ поведения роботов (multi-agent), основанный на изучении реальных игр и абстрагировании основной модели. – Построение подходящего представления сцены, учитывающего наиболее важные признаки (features) – Классификация всех сцен по их признакам – Изучение взаимосвязей между классами сцен и действиями, наиболее предпочтительными в них 2 Особенность метода • Q-анализ (Q-analysis) – Исследование реляционной структуры, построенной на множестве возможных признаков – Выбор важнейших признаков 3 Введение • Анализ поведения (Behaviour analysis) – построение модели, наблюдаемой в agent / multi-agent системе. RoboCup 4 Behaviour Analysis • Сцена (Scene) как взаимодействие агентов и их окружения – мгновенная картина происходящего • Сцена состоит из подсцен (sub-scenes) или конфигураций (configurations) со своими подмножествами игроков 5 Configurations • Конфигурация - набор исследуемых признаков: • ‘opponent to left’ • ‘ball moving fast’ • ‘close to goal’ • Классификация конфигураций, основанная на комбинации признаков • Связь классов конфигураций с действиями, которые следует предпринять агентам 6 Ключевые вопросы • Какие признаки «лучше всего» описывают сцену? • Как классифицировать конфигурации? • Как изучить связь между полученными классами и действиями агентов? 7 Какие признаки «лучше всего» описывают сцену? • Выделение признаков (feature extraction) в распознавании образов • Добавление «плохих» признаков портит воздействие «хороших» • Необходимо найти метод, отбирающий только нужные признаки 8 Как классифицировать конфигурации? • Нахождение подходящего критерия схожести сущностей 9 Как изучить связь между полученными классами и действиями агентов? • Машинное обучение • Нахождение метода обучения, основанного на результатах игр 10 • Q-анализ – многомерное обобщение теории сетей, способное моделировать n-арные связи между признаками и конфигурациями • Обеспечивает ступенчато изменяющийся метод классификации, в зависимости от общих признаков 11 • Отображение объектов в многомерное пространство и кластеризация их посредством введенных метрик • В отличие от этого, Q-анализ сильно чувствителен к выбираемым признакам, чем можно воспользоваться для обнаружения признаков, незначительно меняющих картину представления сцены 12 Методология Q-анализа 13 Классифицирование многомерных данных • Множество классифицируемых объектов A = {a1, a2, ...,am} • Множество признаков B = {b1, b2, ..., bn} • Исследование объекта ak – для каждого bl ответить на вопросы: 1) Имеет ли объект ak признак bl? 2) Какова сила связи ak с bl? 14 пример • Робот с батареей 1) + 2) Текущий заряд • Робот без батареи 1) - • Робот с пустой батареей 1) + 2) 0 15 • Включение не присутствующих признаков в рассмотрение (с весом 0) приведет к «схожести» логически несовместных (по данному признаку) объектов • Невозможно использование полностью связной нейронной сети 16 • Идея – построить классификатор, способный классифицировать объект с произвольным числом параметров (признаков) 17 Схожесть • В классификации часто используются геометрические модели – Сущность – точка в многомерном пространстве – Схожесть – Евклидово расстояние 18 19 Представление связей симплексами • В Q-анализе схожесть не расстояние, она основана на структурном анализе информации об объектах • Теоретико-множественный подход • Элементы множества {x1, x2, ..., xp} связаны отношением R => симплекс (simplex) {x1, x2, ..., xp, R} 20 • Симплекс может быть представлен как многогранник в n-мерном пространстве • n=p-1 Симплекс из p+1 вершины – p-симплекс 21 • {x1, x2, ..., x6} – множество всех признаков (бинарных) • {c1,c2, ..., c5} - конфигурации 22 • Многомерные симплексы могут быть разбиты на симплексы меньшей размерности – срез (face) 23 q-близость (q-nearness) и структурная схожесть • Определим пересечение двух симплексов: • <x1,x2,x4,x5> ∩ <x2,x3,x4,x6> = <x2,x4> Два симплекса называются q-связными (q-connected), если существует цепочка попарно p-связных симплексов между ними, p ≥ q 24 • M·MT - 1 (1 – матрица из единиц) • Размерность симплекса (на диагонали) – q-top 25 Q-анализ и анализ поведения 26 • Пригодность структуры Q-анализа для анализа поведения • Основная гипотеза – Классы «схожих» конфигураций являются основой более общих понятий. Возможно обобщение – Т.е. анализ действий при конкретных конфигурациях (реально произошедших в игре) дает возможность оценить подходящее действие в данный момент. 27 пример • Анализ распасовки (passing behaviour) • Данные взяты из log-файлов финала “RoboCup 2003 Competition” 28 • Выбор подходящих признаков • Использование этих признаков для наиболее точной классификации конфигураций • Использование полученных классов в качестве базы для дальнейшего обучения 29 Проблемы • Число признаков огромно • Не существует очевидного выбора подходящих признаков 30 • Для простоты рассматривается команда из 5 игроков (вместо 11) » p – игрок, владеющий мячом » ai – союзники » bj – противники 31 • αi, di – делятся на “very-small”, “small”, “big” и “very-big” • 11 бинарных признаков: – dvs, ds, db, dvb – αvs, αs, αb, αvb – Rneigh_own_team, Lneigh_own_team – oppcloser 32 Выбор признаков • Из произвольного набора признаков выбрать наиболее важные • Задача проектировщика • Метод определения подходящих признаков в перспективе ведет к автоматическому выбору признаков 33 • {x1, ..., x11} – бинарные признаки • Считаем, что каждая конфигурация либо благоприятна для пасса, либо нет (passing / non-passing configuration) 34 • Признаки по-разному влияют на общую информацию о конфигурации – Значительно ее расширяют – Оставляют без существенных изменений • Признаки, присущие подавляющему большинству конфигураций • Признаки, не относящиеся почти ни к одной конфигурации • В простейшем случае признак называется «отвлекающим» (distracting), если его рассмотрение дает несущественное расширение информации • Признак называется идеальным классификатором (perfect classifier), если все конфигурации одного класса имеют его, а другого - нет 35 • Существуют наборы признаков, не являющихся ни «отвлекающими», ни «идеальными», но в сочетании друг с другом дающих подходящий классификатор 36 Q-анализ игр • Рассмотрен log-файл финала “RoboCup 2003” • S – множество всех удачных комбинаций пасов (оба игрока были из одной команды) • Для каждого паса строятся 21 треугольная конфигурация. Рассмотрим, очевидно, 10 из них (только игроки «своей» команды) – Из этих 10 конфигураций • 1 – pass configuration • 9 – non-pass configuration 37 38 • Всего 118 pass и 1062 non-pass • <x7> - 30% pass, 11% - non-pass • <x9> - 36% pass, 42% - non-pass • <x7,x9> - 18% pass, 5% - non-pass 39 Star-Hub Analysis • Центр (hub) симплексов – их наибольший общий срез (пересечение) • Ищем множество симплексов с наибольшим центром для “passing” класса и наименьшим для “non-passing” • Исследуем все 128 (4*4*2*2) возможных комбинаций 40 41 • Исследуя полученные результаты, важно помнить, что число испытаний недостаточно велико, тем не менее даже при таких частотах можно выделить некоторые симплексы – Несмотря на высокую размерность, <x4,x5,x9,x10,x11> относится к 5% nonpasses и почти ни одному pass – <x4,x5,x10,x11> 2% passes, 11% non-passes – <x3,x7,x9> 10% passes, 1% non-passes – <x2,x11> 25% passes, 7% non-passes – <x4> 14% passes, 69% non-passes – <x2> 38% passes, 10% non-passes 42 Заключение • Было изучено поведение роботов в ситуациях, когда нужно сделать пас: – Игрок, отдающий мяч, должен определить, кому из 10 игроков это следует сделать – С каждым игроком ассоциирована структура, определяемая набором признаков – Каждая такая структура классифицируется как passing или non-passing, в зависимости от результатов действия робота • В простых системах каждый значимый признак определяет, к какому классу относится конфигурация • В более сложных это не так 43 Перспектива • Данную классификацию можно расширить до метода, позволяющего определять поведение во время игры • Но действия, определяемые описанным образом будут основаны на статическом восприятии окружающего мира, без учета долгосрочных тактических планов • Для решения этой проблемы можно добавить характеристику «значимость паса» 44 Использование материалов реальных игр • Сколько наблюдений для конкретного симплекса нужно сделать, чтобы оценить его значимость? • Можно ли совмещать материалы по нескольким играм? • Можно ли совмещать результаты, полученные для разных команд? • Как меняются результаты при добавлении новых признаков? 45 Литература [1] P. Iravani, `Behaviour-based architecture for abstract control and learning', Proc. TAROS, 2004 [2] P. Iravani, Johnson, J.H., Rapanotti, L., `Applications of concept grounding techniques to reduce the dimensionality in sensorory-motor space', STAIRS, 2004 [3] Atkin, R.H., Multidimensional Man, Penguin (Harmondsworth), 1981. [4] Johnson, J.H., `Some structures and notation of Qanalysis', Environment and Planning B, 8, 73-86, 1981. [5] Gordon, A. D., Classi¯cation, Chapman & Hall, 1999. [6] Johnson, J., H., `Stars, Maximal Rectangles, and Lattice: a new persepctive on Q-analysis', International Journal of Man-Machine Studies, 24, 293-299, 1986. [7] Johnson, J. H., `Visual communication in swarms of intelligent robot agents', Arti¯cal Life and Robotics, 5, 1-9, 2001. [8] P. Iravani, `An architecture for multilevel learning and robotic control base on concept generation', Ph.D. Thesis, The Open University, 2004. 46