Лекция - Методы обучения

реклама
23.1. Методы обучения
Методы обучения, которые рассматривались в главе 20 (пространство
версий и IDЗ), иногда называют методами, основанными на подобии
(similarity-based). Реализация обучения на основе этих методов требует
обработки больших объемов информации — позитивных и негативных
примеров, — из которой извлекаются характерные свойства нового
концепта.
Альтернативой таким методам являются методы, основанные на
пояснениях (explanation-based), которые позволяют выполнить
обобщение на осно.ве единственного обучающего экземпляра. Это
становится возможным, поскольку в таких методах процессом
обобщения "руководят" знания, специфические для конкретной
предметной области. Обучение, основанное на пояснениях, является
дедуктивным или аналитическим, а не эмпирическим или индуктивным
[Bergadano and Gunetti, 1996]. Иными словами, при такой методике
описание нового концепта формируется в результате анализа
предъявленного экземпляра в свете имеющихся фоновых знаний.
Методика логического вывода на основе прецедентов, которой была
посвящена глава 22, позволяет решить новую проблему, адаптируя
ранее полученные решения аналогичных проблем. Эта же методика
может быть использована и для обучения, поскольку если уж ранее
сформированное решение адаптировано применительно к новой
проблеме, его можно добавить в базу прецедентов для использования в
будущем.
Ниже будут более подробно рассмотрены методика обучения на основе
пояснений и возможность использования прецедентов для машинного
обучения.
Термином обобщение на основе пояснений (EBG — explanation-based
generalization) обозначается независимый от, предметной области метод
использования знаний, специфических для предметной области, для
контроля процесса обобщения по единственному обучающему
экземпляру.
Использование метода EBG предполагает, что система располагает
следующей информацией:


позитивным экземпляром обучающей выборки;
теорией предметной области;
 определением концепта, который система должна "изучить".
ассуждения на основе прецедентов — это, по сути, рассуждения по
аналогии, а не логический вывод. Если некто придет к заключению, что
Джон, владелец Порше, — водитель, склонный к риску, поскольку
имеется прецедент, что Джек, который ездит на Ферра-ри, тоже склонен
к риску, то фактически по аналогии делается вывод— Джон похож на
Джека, так как автомобиль Порше имеет много общего с Феррари.
Напрашивается заключение, что, когда строится такая аналогия, каждый
прецедент неявно генерирует определенное правило. В нашем примере
такое обобщенное правило состоит в том, что люди, которые ездят на
спортивных автомобилях, склонны к риску. Но такое правило не
является полным. Все ли водители спортивных машин склонны к риску,
или только водители-мужчины, или молодежь? Программа,
использующая методику рассуждений на основе прецедентов, не может
ответить на такой вопрос. Она способна только отыскать прецедент,
наиболее близкий к рассматриваемому случаю.
Между методами CBL и EBG есть и кое-что общее. Оба метода можно
противопоставить индуктивным методам, рассмотренным в главе 20,
поскольку ни тот ни другой не предполагает анализа большого
количества данных. Мы уже показали, что методу EBG достаточно иметь
один обучающий экземпляр, а метод CBL для формирования аналогии
может обойтись одним подходящим прецедентом.
Но обучение — это нечто большее, чем просто накопление
сведений. Система, основанная на анализе прецедентов, должна
обладать способностью выявить неподходящие прецеденты,
которые не позволяют получить удовлетворительное решение
насущной проблемы. В противном случае она будет накапливать
прецеденты с ошибочными решениями.
23.4. Гибридный символический подход и нейронные сети
В этом разделе будет рассмотрена перспектива использования нейронных сетей в экспертных
системах. Нейронные сети предполагают совершенно другую модель вычислительного процесса,
принципиально отличную от той, которая традиционно используется в экспертных системах. В
качестве примера будет рассмотрена система SCALIR (Symbolic and Connectionist Approach to Legal
Information Retrieval) [Rose, 1994].
Эта система помогает пользователю отыскать правовые документы — описания прецедентов или
статьи законов, — имеющие отношение к определенному делу. Поскольку юридическая практика
охватывает все области жизни современного общества, использование традиционного подхода,
основанного на обычных базах знаний, к поиску и извлечению правовой информации потребует
представления в системе огромного объема знаний, в большинстве нетривиальных, представляющих
такие сложные понятия, как права, разрешения, обязанности, соглашения и т.п. Проблема
усугубляется использованием естественного языка при составлении запросов. Большинство
поисковых систем, имеющих дело с запросами на естественном языке, которые используются для
поиска в сети World Wide Web, основаны на статистическом подходе, а не на базах знаний.
В системе предпринята попытка решить эту проблему посредством сочетания статистического
подхода к извлечению информации и подхода, основанного на базах знаний, в которых учитываются
смысловые связи между документами.
23.4.1. Нейронные сети
В отношении систем искусственного интеллекта вообще и экспертных систем, в частности, иногда
можно услышать следующие критические замечания.


Такие системы слишком "хрупкие" в том смысле, что, встретившись с ситуацией, не
предусмотренной разработчиком, они либо формируют сообщения об ошибках, либо дают
неправильные результаты. Другими словами, эти программы довольно просто можно
"поставить в тупик".
Они не способны непрерывно самообучаться, как это делает человек в процессе решения
возникающих проблем.
Еще в середине 1980-х годов многие исследователи рекомендовали использовать для преодоления
этих (и других) недостатков нейронные сети.
В самом упрощенном виде нейронную сеть можно рассматривать как способ моделирования в
технических системах принципов организации и механизмов функционирования головного мозга
человека. Согласно современным представлениям, кора головного мозга человека представляет
собой множество взаимосвязанных простейших ячеек — нейронов, количество которых оценивается
числом порядка 1010. Технические системы, в которых предпринимается попытка воспроизвести, пусть
и в ограниченных масштабах, подобную структуру (аппаратно или программно), получили
наименование нейронные сети.
Нейрон головного мозга получает входные сигналы от множества других нейронов, причем сигналы
имеют вид электрических импульсов. Входы нейрона делятся на две категории — возбуждающие и
тормозящие. Сигнал, поступивший на возбуждающий вход, повышает возбудимость нейрона, которая
при достижении определенного порога приводит к формированию импульса на выходе. Сигнал,
поступающий на тормозящий вход, наоборот, снижает возбудимость нейрона. Каждый нейрон
характеризуется внутренним состоянием и порогом возбудимости. Если сумма сигналов на
возбуждающих и тормозящих входах нейрона превышает этот порог, нейрон формирует выходной
сигнал, который поступает на входы связанных с ним других нейронов, т.е. происходит
распространение возбуждения по нейронной сети. Типичный нейрон может иметь до 10 J связей с
другими нейронами.
Было обнаружено, что время переключения отдельного нейрона головного мозга составляет порядка
нескольких миллисекунд, т.е. процесс переключения идет достаточно медленно. Поэтому
исследователи пришли к заключению, что высокую производительность обработки информации в
мозге человека можно объяснить только параллельной работой множества относительно медленных
нейронов и большим количеством взаимных связей между ними. Именно этим объясняется широкое
распространение термина "массовый параллелизм" в литературе, касающейся нейронных сетей.
Подход, базирующийся на нейронных сетях, часто рассматривается как несимволический, или
субсимволический (subsymbolic), поскольку основная информационная единица, подлежащая
обработке, является не символом (как это определено в главе 4), а чем-то более примитивным.
Например, символ в LISP-программе, скажем МУ LAPTOP, можно было бы представить схемой
активности некоторого числа связанных нейронов в нейронной сети. Но, поскольку нейронные сети
часто моделируются программно, сам нейрон представляется некоторой программной структурой,
которая, в свою очередь, может быть реализована с использованием символов. Например, роль
нейрона может исполнять объект данных, располагающий подходящими свойствами и методами и
связанный указателями с другими объектами в сети. Таким образом, на концептуальном уровне в
субсимволической системе, реализованной компьютерной программой, которая содержит символы,
нет ничего парадоксального.
Независимо от способа реализации, нейронную сеть можно рассматривать как взвешенный
ориентированный граф такого типа, который описан в главе 6. Узлы в этом графе соответствуют
нейронам, а ребра — связям между нейронами. С каждой связью ассоциирован вес — рациональное
число, — который отображает оценку возбуждающего или тормозящего сигнала, передаваемого по
этой связи на вход нейрона-реципиента, когда нейрон-передатчик возбуждается.
Поскольку нейронная сеть носит явно выраженный динамический характер, время является одним из
основных факторов ее функционирования. При моделировании сети время изменяется дискретно, и
состояние сети можно рассматривать как последовательность мгновенных снимков, причем каждое
новое состояние зависит только от предыдущего цикла возбуждения нейронов.
Для выполнения обработки информации с помощью такой сети необходимо соблюдение
определенных соглашений. Для того чтобы сеть стала активной, она должна получить некоторый
входной сигнал. Поэтому некоторые узлы сети играют роль "сенсоров" и их активность зависит от
внешних источников информации. Затем возбуждение передается от этих входных узлов к
внутренним и таким образом распространяется по сети. Это обычно выполняется посредством
установки высокого уровня активности входных узлов, которая поддерживается в течение нескольких
циклов возбуждения, а затем уровень активности сбрасывается.
Часть узлов сети используется в качестве выходных, и их состояние активности считывается в конце
процесса вычислений. Но часто интерес представляет и состояние всей сети после того, как
вычисления закончатся, либо состояние узлов с высоким уровнем активности. В некоторых случаях
интерес может представлять наблюдение за процессом установки сети в стабильное состояние, а в
других — запись уровня активизации определенных узлов перед тем, как процесс распространения
активности завершится.
На рис. 23.2 показан фрагмент нейронной сети, состоящий из четырех сенсорных узлов S1—S4,
возбуждение от которых передается другим узлам сети. Один узел, R, является выходным. Если веса
связей в сети неизвестны, то узел R будет возбужден тогда, когда будут возбуждены узлы S1 и S4 Но
если будут возбуждены также узлы S2 и S3, это приведет к подавлению возбуждения R даже при
возбужденных узлах 5) и S4. Будет ли узел R действительно возбужден при таком состоянии сигналов
на входах сенсорных узлов, зависит от весов связей в сети.
Количество возможных конфигураций сети такого типа очень велико. Велико и количество способов
вычисления состояния нейрона при заданной сумме состояний на его входах. Эти детали теории
нейронных сетей выходят за рамки данной книги. Далее мы будем следовать идеям Роуза (Rose) и
рассмотрим относительно простую модель нейронной сети, в которой любой узел может быть связан
с любым другим узлом и в которой выходом узла является его состояние активности (т.е. не делается
различия между активностью нейрона и сигналом на его выходе).
Рис. 23.2. Фрагмент нейронной сети с возбуждающими и тормозящими связями



Для более строгой формулировки такой модели введем следующие обозначения:
wij — вес связи от узла j к узлу i,
neti = Zj wij— состояние в текущий момент времени входов узла l, связанного с другими узлами
сети.
При любом определении нейронной сети необходимо принимать во
внимание и фактор времени, поскольку состояние любого нейрона в
некоторый момент времени зависит от его предыдущего состояния и от
предыдущего состояния нейронов, связанных с его входами.
Скачать