На правах рукописи Ботин Валерий Александрович

реклама
На правах рукописи
Ботин Валерий Александрович
АДАПТИВНЫЙ КРИТИК С ИСПОЛЬЗОВАНИЕМ ФИЛЬТРА
КАЛМАНА
Специальность: 05.13.01 – Системный анализ, управление и обработка
информации (информационные и технические системы)
АВТОРЕФЕРАТ
диссертации на соискание ученой степени
кандидата технических наук
Краснодар – 2012
2
Работа выполнена в
ФГБОУ ВПО «Кубанский государственный
технологический университет»
Научный руководитель:
кандидат технических наук
Шумков Евгений Александрович
Официальные оппоненты:
доктор технических наук, профессор
Лойко Валерий Иванович
кандидат технических наук
Стасевич Владимир Павлович
Ведущая организация
Защита состоится
ФГБОУ ВПО «Морская
государственная академия имени
адмирала Ф.Ф. Ушакова»,
г. Новороссийск
21 марта 2012 г. в 1400 на заседании
диссертационного совета Д 212.100.04 в Кубанском государственном
технологическом
университете
по
адресу
350072,
г.
Краснодар,
ул. Московская 2, ауд. Г-251.
С диссертацией можно ознакомиться в научной библиотеке
КубГТУ.
Автореферат диссертации разослан 18 февраля 2012 г.
Ученый секретарь
диссертационного совета,
канд. техн. наук, доцент
Власенко А.В.
3
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность исследования. Рациональное управление во многих
прикладных
задачах,
например,
ведение
хозяйств,
использование
ресурсов, организация деловой активности, является многошаговой
задачей, часто с бесконечным горизонтом. В данных задачах необходимо
на
каждой
итерации
выбирать
некоторое
управление,
возможно
неоптимальное на данном шаге, но оптимальное с точки зрения конечной
цели. Другими словами, оптимальным должен быть весь многоэтапный
процесс смены состояний системы. Однако зачастую построить такое
управление классическими способами не представляется возможным в
силу сложности решаемой задачи, и для решения таких задач в последнее
время все чаще стали применять нейронные сети и топологии с
подкреплением, в частности сети адаптивной критики и системы на базе
Q – обучения. В то же время такие системы обладают недостатками,
такими
как
необходимость
переобучения,
длительное
пошаговое
исследование среды, негарантированное поступление подкрепления и др.
Целью работы является разработка топологии модифицированного
адаптивного критика с использованием фильтра Калмана, построение
механической торговой системы на базе новой топологии и её
программная реализация, разработка системы поддержки принятия
решений ИТ – отдела крупного предприятия на базе новой топологии.
4
Задачи исследования:
 провести анализ топологий, использующих принцип обучения
с подкреплением;
 провести сравнительный анализ методов прогнозирования;
 разработать топологию, обучающуюся с подкреплением,
отличающуюся высокими скоростными характеристиками
работы;
 разработать модель механической торговой системы на базе
предлагаемой топологии, реализовать и протестировать её;
 разработать модель управления ИТ – отделом крупной
организации
с
использованием
методологии
ITIL
и
предлагаемой топологии, реализовать и протестировать её.
Методы
исследования.
Задачи
исследования
решены
с
использованием методов системного анализа, искусственного интеллекта,
математической статистики, теории операций и теории фильтрации.
Научная новизна:
1. разработана
топология
модифицированного
адаптивного
критика с фильтром Калмана;
2. разработана
топология
модифицированного
критика с каскадом фильтров Калмана;
адаптивного
5
3. разработана
и
программно
реализована
механическая
торговая система на базе модифицированного адаптивного
критика с фильтром Калмана;
4. разработана и программно реализована система поддержки
принятия
решений
модифицированного
ИТ
–
отдела
адаптивного
с
критика
использованием
с
фильтром
Калмана.
Практическая ценность работы заключается в разработке и
апробации топологии
модифицированного адаптивного критика с
фильтром Калмана (далее АКФК), реализации программной библиотеки
NNFilterTool для создания, исследования и применения разработанной
топологии, программной
реализации механической торговой системы
(далее МТС) на базе АКФК, программной реализации системы поддержки
принятия решений (далее СППР) ИТ – отдела крупной компании с
использованием АКФК.
Реализация и внедрение результатов работы. Разработанная
система поддержки принятия решений внедрена в ООО «Кубнет».
Основные положения, выносимые на защиту:
- топология АКФК;
- модель МТС на базе АКФК;
- модель СППР ИТ – подразделения крупного предприятия с
использованием АКФК и методологии ITIL;
- результаты экспериментов с разработанными моделями.
6
Публикации.
опубликовано 5
По
материалам
выполненных
исследований
научных работ, в том числе 3 статьи в журналах,
рекомендованных ВАК РФ и 2 тезиса докладов, получено решение о
выдаче патента на изобретение «Модифицированный интеллектуальный
контроллер».
Структура и объем диссертации. Диссертация состоит из
введения,
четырёх
разделов,
заключения,
списка
использованной
литературы и приложения. Её общий объем составляет 123 страниц
текста, содержащего 39 рисунков и 8 таблиц.
ОСНОВНОЕ СОДЕРЖАНИЕ ДИССЕРТАЦИИ
Во введении обоснована актуальность и сформулирована научная
проблема исследования, определены его объект и предмет, поставлены
цель и задачи исследования.
В первой главе рассмотрены:
 обучение с подкреплением и топологии с обучением с
подкреплением, рассмотрено Q – обучение и системы на основе Q
- обучения;
 проведён анализ современных топологий сетей адаптивной
критики, предназначенных для построения систем управления
объектами, работающих в режиме реального времени. Отмечены
достоинства
и
недостатки
данных
систем.
В
частности,
7
недостатком таких систем является то, что с другой стороны
является их достоинством, – использование нейронной сети в
качестве критика.
 сделан обзор методов прогнозирования. Отмечено, что каждый
метод
прогнозирования
имеет
свою
нишу.
В
частности,
скользящие средние эффективны в некритических задачах,
решаемых в режиме реального времени. Линейные регрессионные
модели используются для простых моделей, в которых известны
влияющие факторы и в которых в первую очередь важно
спрогнозировать направление тренда. Нелинейные регрессионные
модели хорошо описывают прогнозную переменную, но только
если количество влияющих факторов невелико. Нейросетевые
модели
показывают
невозможно
преимущество
построить
в
тех
математическую
случаях,
модель
когда
объекта
управления, данные зашумлены и с пробелами в истории, модель
описывается большим количеством переменных;
 приведён анализ существующих реализаций фильтра Калмана.
Во второй главе предложена топология модифицированного
адаптивного критика, где в качестве критика введён фильтр Калмана.
Использование фильтра Калмана как решающее ядро Критика позволяет
значительно снизить время перенастройки Критика в случае поступления
новых, неизвестных ранее системе данных, что критически важно для
8
систем
управления,
работающих
в
режиме
реального
времени.
Использование фильтра Калмана позволяет системе проходить новые,
неизвестные ситуации без перенастройки, в аналогичных ситуациях в
нейронной сети будет вызван процесс переобучения. Принцип работы
дискретного фильтра Калмана при этом стандартный (в оценке
подкрепления).
Принципиальная схема предлагаемого устройства представлена на
рисунке1.
Рисунок 1 - Модифицированный адаптивный критик с фильтром
Калмана
9
В качестве объекта управления 1 может быть выбрано практически
любое устройство или программная модель, например, веб – сайт или
мобильный робот.
Решатель 2 – это устройство, которое реализует математическую
формулу (или несколько формул), описывающую те переменные объекта
управления, которые можно непосредственно вычислить.
Блок расчета подкрепления (БРП) 3, реализует математическую
формулу, рассчитывающую реальное значение подкрепления, после того,
как сигнал действия (управления) 17.2 отработан объектом управления 1.
Блок действий 4 хранит таблицу возможных действий в конкретных
ситуациях. Действия и ситуации могут добавляться и удаляться в ходе
работы системы.
Фильтр Калмана 5 предназначен для вычисления ненаблюдаемой
величины. Фильтр Калмана выполняется в стандартном исполнении для
одношагового предсказания.
Память фильтра Калмана (ПФК) 6 предназначена для временного
хранения параметров блока фильтра Калмана 5. Блок хранит столько
наборов параметров фильтра Калмана, сколько выбрано возможных
действий в блоке действий 4.
Блок выбора действий 7 предназначен для выбора действия из
возможных действий в данной ситуации на базе "жадного правила",
которое можно записать как: с вероятностью (1   ) выбирается то
10
действие, которому соответствует максимальное значение подкрепления
RiPR (t  1) , при этом 0    1 ..
Цепочка работы системы следующая:
PR
...  S (t )  Z (t )  RtPR
1  a (t )  R (t )  S (t  1)  Z (t  1)  Rt  2  a (t  1)  ...
Алгоритм работы устройства следующий (цифрами указаны только
сигналы):
1.
Объект управления вычисляет сигнал своего состояния 8 (как на
базе информации о внешней среде, так и по собственным
показателям) и подает его 8.1 - на решатель, 8.2 – на блок
действий и 8.3 – на блок расчета подкрепления.
2.
Решатель вычисляет наблюдаемый параметр1 11 системы.
3.
Блок
расчета
подкрепления
рассчитывает
получившееся
(реальное) подкрепление 9 и подает его значение на 9.1 - блок
действий и 9.2 - фильтр Калмана.
4.
Блок действий, учитывая последнее поступившее подкрепление
9.1, выбирает возможные действия в данной конкретной
ситуации 12.
5.
Блок действий последовательно подает выбранные действия на
12.2 - фильтр Калмана и синхронизирующий сигнал 10 на
1
Параметров может быть несколько.
11
решатель,
по
которому
решатель
синхронно
подает
наблюдаемый параметр 11 на фильтр Калмана.
6.
При первом поданном сигнале на вычисление 12.2, перед тем как
начать работу, фильтр Калмана сохраняет свои параметры по 13
в памяти фильтра Калмана.
7.
Фильтр Калмана последовательно получает пары значений
{наблюдаемый сигнал 11; возможное действие 12.2} и вычисляет
прогноз подкрепления (ненаблюдаемый сигнал) 15.
8.
После
вычисления
прогноза
подкрепления
для
каждого
возможного действия 12.2 фильтр Калмана сохраняет свои
параметры в памяти фильтра Калмана по 13 и выдает значение
прогнозируемого подкрепления 15 на блок выбора действий.
9.
Блок выбора действий накапливает пары значений {возможное
действие 12.1; прогнозируемое подкрепление 15}.
10. После того, как рассчитаны подкрепления для всех возможных
действий, от блока действий идет сигнал 12.1 на блок выбора
действий об окончании прогнозирования. После получения этого
сигнала блок выбора действий выбирает действие на основе
"жадного правила" и подает его по 17.1 на объект управления, по
17.2 на блок действий, а также по 16 на память фильтра Калмана.
На блок действий также подается по 17.2 прогнозируемое
подкрепление для выбранного действия.
12
11. Блок действий сохраняет выбранный сигнал 17.1, возможное
подкрепление 17.1, состояние объекта управления 8.2, реальное
подкрепление
9.1,
тем
самым
накапливая
историю
для
дальнейшего выбора действий в возможных ситуациях.
12. Память фильтра Калмана восстанавливает по 14 параметры
фильтра Калмана для выбранного действия.
13. Объект управления отрабатывает поданное действие 17.2. Далее
цикл на шаг 1.
Также во второй главе предложены варианты модифицированных
Q - критика и V – критика на базе фильтра Калмана. Покажем, как
работает V- критик на базе фильтра Калмана. В качестве инструмента
прогнозирования оценки качества V pr (t  1) состояния S pr (t  1) вследствие
применения сигнала управления u (t ) на данной итерации t используется
дискретный фильтр Калмана. Дискретизация по времени в общем случае
не равномерна, что вполне допустимо для несмещенного фильтра
Калмана.
Пусть модель сообщения задана линейным разностным уравнением:
V [t  1]  A  V [t ]  B  u[t ]  G  w[t ]
(1)
где w(t ) представляет собой белый шум с нулевым средним и
ковариационной матрицей:
cov{w(t ), w( j )}  K w (t )   K (t  j )
(2)
13
Модель
наблюдения
(или
измерения)
задается
дискретным
соотношением:
~
x (t )  C  V [t ]  D  u[t ]  H  w[t ]  v[t ] 2
(3)
где шум измерения v представляет собой белый шум с нулевым
средним и
cov{v(t ), v( j )}  K V (t )   K (t  j )
(4)
Предлагаемая схема показана на рисунке 2.
Рисунок 2 - Общая схема V-критика с фильтром Калмана
В этом случае фильтр Калмана, описывается уравнениями:
2
Vˆ [t  1]  A  Vˆ [t ]  D  u[t ]  L( ~
x [t ]  C  Vˆ [t ]  D  u[t ])
(5)
Vˆ [t ] C ( I  M  C ) ˆ
( I  C  M ) D C  M  u[t ] 
 V [t ]  



  ~

I

M

C

M

D
M
ˆ
x
[
t
]



  x [t ]


(6)
x (t ) в нашей схеме есть прогнозное значение рабочего параметра2, то есть по сути это
При этом ~
x(t  1) , чтобы не вводить путаницы и не отступать от привычных нотаций формул фильтра Калмана.
14
где матрица коэффициентов обратных связей L и новая матрица
коэффициентов обратных связей M определяется на основе решения
матричного
алгебраического
уравнения
Риккати.
«Наблюдатель»
объединяет объект управления и фильтр Калмана, используя известные
входы u[t ] и результаты измерений ~x [t ] , искаженные случайной помехой,
для вычисления оценки вектора переменных состояния V [t ] и выходов.
Обновленная матрица коэффициентов обратных связей M применяется
для того, чтобы уточнить предсказание V [t ] на основе измерения ~x [t ] :
Vˆ [t  1]  Vˆ [t ]  M ( ~
x [t ]  C  Vˆ [t ]  D  u[t ])
(7)
В третьей главе предложены реализации разработанной топологии
АКФК для двух актуальных и востребованных задач – МТС, торгующей
на фондовом рынке, и СППР ИТ – отдела.
МТС все более востребованы на финансовых рынках и им в
последнее время уделяется значительное внимание, как в научных
журналах, так и в сети Интернет. Построение МТС на базе разработанной
топологии АКФК позволяет использовать набор мощных технологий в
"коробочной" версии, необходимо, по сути, только выбрать входы и
выходы. Наличие фильтра Калмана качественно улучшает работу МТС за
счет
использования
проверенного,
надежного
механизма
прогнозирования состояния системы».
На рисунке 3 представлена разработанная МТС на базе АКФ.
15
Рисунок 3 - МТС на базе АКФК
На схеме введены следующие обозначения: ПФК – память фильтра
Калмана, БРП – блок расчета подкрепления, БПТ – блок правил торговли,
БВД – блок выбора действия, БД – база данных (хранилище данных),
БКР – блок корректировки решателя, ФК – фильтр Калмана. В качестве
решателя могут быть: нейронная сеть, технический индикатор, уравнение
регрессии и т.д. Фильтр Калмана в МТС на базе АКФК работает по
стандартной схеме, описанной выше.
Предложенная схема МТС, кроме всего прочего, отличается
несколькими контурами отслеживания правильности работы системы и
несколькими уровнями защиты от ошибочных сигналов.
Использование разработанной топологии в процессе управления
ИТ – отделом большого предприятия позволяет получить схему, которая
16
рекурсивно перенастраивается в зависимости от случившейся ситуации, в
то же время используя историю работы отдела. Наличие такой системы,
по экспериментальным данным, позволяет избежать нагромождения
инцидентов и правильно реагировать на потоки заданий, обеспечивая
качественный сервис, предоставляемый всем отделом. Система была
построена с соблюдением правил и рекомендаций ITIL.
Одним из процессов ITIL является "Управление непрерывностью
сервисов" ("Service continuity management"), главные задачи которого:
анализ
рисков,
подготовка
плана
восстановления
сервисов,
предоставление требуемых средств, планирование профилактических
работ, тестирование текущей инфраструктуры, обучение специалистов
для работы в нештатных ситуациях и т.д.
Учитывая специфику и направленность отдела ИТ организации,
основной задачей стало распределение СППР специалистов по сервисам и
инцидентам.
Основным
проводником
между
пользователями
и
специалистам отдела ИТ является служба поддержки пользователей
(Service
Desk)
–
сервисная
структура,
разрешающая
проблемы
пользователей с компьютерами (как аппаратным, так и программным
обеспечением), информационными системами и оргтехникой. На момент
внедрения
разработанной
системы
организация
уже
владела
программным продуктом компании Hewlett Packard Open View Service
Desk,
что
значительно
упростило
работу
предоставляемых пользователям сервисам.
по
сбору
данных
о
17
На практике было доказано, что разработанная система может полностью
автоматически получать данные, анализировать их для последующей
обработки средствами АКФК и дальнейшего прогноза качества сервиса,
выполняемого сотрудниками групп ИТ – отдела
вне зависимости от
приоритетности отношения определённого сотрудника к определённой
группе отдела. На рисунке 4 схематически отражён процесс работы
АКФК в реализованной СППР.
Рисунок 4 – принцип работы СППР на базе АКФК
Как видно из рисунка 4 основным результативным процессом
работы системы является перемещение взаимозаменяемых сотрудников в
группах отдела ИТ. Такой подход перестановки даёт наилучший
результат оперативного решения инцидентов и поступающих обращений
от сотрудников организации.
18
Рисунок 5 - Общая схема работы программного комплекса
Рисунок 5 схематически отображает программную реализацию
СППР. Не смотря на простоту системы, результативность её работы
остаётся на высоком уровне. Использование двух баз данных позволило
разгрузить
аппаратную
часть
предприятия
при
выполнении
одновременных запросов системы к необходимым данным, а простота
соединения с СУБД посредствам ADO компонентов позволило СППР
мгновенно производить подключение к хранилищу и отправлять на
выполнение необходимые запросы.
19
В четвертой главе приведены результаты функционирования
предложенной топологии адаптивного критика с фильтром Калмана к
двум разноплановым задачам.
Полученные результаты использования предложенных МТС можно
интерпретировать следующим образом:
 V – критик обучается дольше, чем АКФК, однако, если в
АКФК в качестве Решателя используется нейронная сеть, то
это
преимущество
зачастую
нивелируется,
так
как
операционный интервал времени рассчитывается по самому
медленному звену, которым и является нейронная. Если в
качестве
ядра
решателя
АКФК
используется
другой
инструмент, то АКФК имеет скоростные характеристики на
несколько порядков выше, чем V - критик (в зависимости от
выбранного инструмента);
 при «экстремальных» условиях работы, как например, в
случае минутного графика рынка Forex, АКФК, даже
используя нейронную сеть в качестве ядра Модели, имеет
преимущество по скорости расчетов. Это связано с тем, что
нейросеть критика может переобучаться в те временные
итерации, когда не переобучается нейросеть решателя. По
характеристикам работы МТС АКФК также имеет, пусть и
незначительное, преимущество перед V – критиком;
20
 V – критику необходимо значительно большее количество
итераций для обучения, АКФК «понимает» ситуацию за 10 –
20 временных итераций. При этом в случае финансовых
временных рядов обычно существует значительная история
для инициализации системы;
 при старте работы системы «с нуля», но со знанием
математической модели среды и объекта, АКФК имеет
неоспоримое
преимущество
перед
V
–
критиком
по
временным характеристикам.
Результаты
экспериментов
с
разработанным
комплексом
управления ИТ – отделом позволили сделать следующие выводы:
размещение разработанного ПО на серверных комплексах организации
привело к снижению времени обработки поступающих в систему данных,
что улучшило скорость реагирование СППР на изменение входящих
данных. По завершении обучения системы и её запуске в полном
автоматическом режиме разница показателей прогнозируемых и реальных
данных на определённый отчётный период составляла всего 1,43%. За
время эксплуатации системы уровень нагрузки на сотрудников ИТ –
отдела снизился до уровня, позволяющего определённым специалистам
заниматься пополнением базы знаний по инцидентам и проблемам для их
устранения в будущем. Реализация удалённого доступа к управлению
системой и разграничение прав доступа позволило контролировать
21
происходящие процессы и корректировать «на лету» даже с мобильных
телефонов, оснащённых мобильными браузерами. За время эксплуатации
системы количество закупаемых единиц новой техники и комплектующих
снизилось, а по истечении трёх месяцев закупки приостановились из-за
своевременного анализа парка компьютерной техники «свободными»
сотрудниками ИТ – отдела. Таким образов внедрение СППР оказалось
продуктивным и экономически эффективным для предприятия.
В заключении перечислены научные и практические результаты,
полученные автором в ходе исследований.
В приложениях перечислены основные программные продукты,
реализующие или в которых можно реализовать: нейронные сети, фильтр
Калмана и сети адаптивной критики.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
Проделанная в рамках диссертации работа позволила ответить на
поставленные вопросы, цели и задачи исследования. Основными задачами
исследования являлись: создание новой топологии адаптивного критика и
алгоритма его обучения, создание обоснованной методики и её апробация
в важных прикладных проблемах.
В рамках диссертационной работы
цели исследования были достигнуты, задачи реализованы: создана новая
топология адаптивного критика
с фильтром Калмана, /разработан
22
алгоритм его обучения, создана обоснованная методика, проведена ее
апробация в прикладных областях деятельности»
Разработанную топологию АКФК рекомендуется использовать в
случаях, когда известна математическая модель рабочей системы, либо
когда на основе исторических данных (по предыдущим результатам
работы системы) можно построить априорную модель среды. Данная
модель разработана на двух хорошо зарекомендовавших себя моделях.
При этом в ряде задач, когда необходима быстрая реакция критика, то
есть стратегической компоненты, на новую ситуацию, предложенная
система
имеет
значительное
преимущество
по
быстродействию.
Разработанная топология, как наследник адаптивных критиков, несёт в
себе большой потенциал развития, в частности при использовании на
разных
уровнях
топологии
различных
моделей
и
алгоритмов
прогнозирования и выбора действий.
Созданная топология является инвариантной по отношению к
моделируемой задаче и может применяться при построении различных
систем управления, в том числе и для недетерминированных сред.
ПЕРЕЧЕНЬ РАБОТ, ОПУБЛИКОВАННЫХ ПО ТЕМЕ
ДИССЕРТАЦИИ
1.
Ботин В.А., Шумков Е.А. Создание универсальной тестирующей
системы для технических индикаторов. Материалы I Межвузовской
23
научно
-
практической
конференции
"Автоматизированные
информационные и электроэнергетические системы". КубГТУ, 2010.
С. 129–131.
2.
Ботин В.А., Шумков Е.А. Управление ИТ-подразделением ВУЗа. //
Материалы XVII Всероссийской научно - практической конференции
"Инновационные процессы в высшей школе". КубГТУ. 2011.
3.
Шумков Е.А., Ботин В.А. Исследование технического индикатора
MACD. // Политематический научный журнал КубГАУ [Электронный
ресурс]. Краснодар : Куб-ГАУ, 2010. № 64.
4.
Шумков Е.А., Ботин В.А. Статистический анализ технических
индикаторов.
//
Политематический
научный
журнал
КубГАУ
[Электронный ресурс]. Краснодар : Куб-ГАУ, 2010. № 64.
5.
Ботин В.А., Шумков Е.А., Кардалов Д.Н. Распознавание фигур
технического анализа с помощью нейронных сетей. // Политематический
научный журнал КубГАУ [Электронный ресурс]. Краснодар : КубГАУ,
2011. № 65.
6.
Решение
о
выдаче
патента
на
№ 2011113129/08(019414) от 6 декабря 2011 года.
изобретение.
Заявка
24
Подписано в печать 17.02.2012. Печать трафаретная.
Формат 60x84 1/16. Усл. печ. л. 1,35. Тираж 100 экз. Заказ № 607.
Отпечатано в ООО «Издательский Дом-Юг»
350072, г. Краснодар, ул. Московская 2, корп. «В», оф. В-120,
тел. 8-918-41-50-571
e-mail: olfomenko@yandex.ru
Сайт: http://id-yug.narod2.ru
Скачать