Бодякин В.И. (Априорно неопределенной предметной области)

advertisement
(Априорно неопределенной предметной области)
Бодякин В.И. к.ф.-м.н. с.н.с.
Институт проблем управления РАН
им. В.А. Трапезникова, Москва
E-mail: body@ipu.ru ,
http://www.informograd.narod.ru ,
служ.тел.:334-92-39
ПОЧЕМУ ВСЕ ОРГАНИЗМЫ "ЕДИНОДУШНЫ"
В КЛАСТЕРИЗАЦИИ ОКРУЖАЮЩЕГО НАС МИРА
НА ОТДЕЛЬНЫЕ ОБРАЗЫ ?
Предметная область
..1010010…
010101010101001001001110110101
010101010101010101010100101010
101010101010101010000010101010
101001010101010101010101001010 …0100101…
100101010101010101010100101010
101010101001010100101010101010
101010010101010100100110101010
101010101010101010101010101010
101010101010100110010101010101
010101010101010101010100101010
101010101010101010010101010101
010100110101010101010101001010
…0100101…
2
3
Традиционный способ
структуризации в системах ИИ
Предметная область
Программист
систем ИИ
ПО
ak
aj
Информационный 01001 – apll
001111  …
канал

ai
010101010... 01010101..
t
…
00111001 - .
101010 -
Программа
ИИ
Предметная область (ПО) – причинно-связанная
совокупность физических процессов.
4
Процесс – независимое от времени и пространства
детерминированное изменение некоторого
физического параметра во времени.
Любой процесс может быть преобразован в
текстовую форму.
W
A
Wn
Z
t
t1

...
*
*
* *
tn  b
a


t2
а)
*
б)
*
*
в)
ln 
<kzkkzkb>
текстовая форма
г)
многомерный физический процесс <-> текстовая форма
5
Задача: в непрерывном потоке ТФ
необходимо выделить образы,
соответствующие процессам любой ПО
ПО
МАК
РИС
ЛЕН
ДУБ
МАКРИСРИСМАКДУБЛЕН

t01
t02
t03
АКР
ИСМ
КД
…
УБЛ
ЕНД
…
ИС
R1
Метод: построение в ИС множества различных
словарей и выбор минимального (Ri)
Цель: Минимальный словарь ИС
(гомоморфен процессам ПО)
Инструментарий: нейросемантические
структуры
6
Демонстрационный пример
(четыре равновероятных процесса формируют непрерывный поток ТФ)
aj ПО
ЛЕН
МАК
ДУБ
ai
РИС
ИС
Текстовой поток
____
СМАКРИСРИСМАКДУБЛЕН
ak
Закрашенный
поток
"Генетич.
программа"
Необходимо построить словарь в N образов, полностью покрывающий
ТФ. Примем что:
Энергетические затраты на обработку одного образа в ИС равна 1Е-.
Время обработки символа и образа  один такт Т,
Энергетические затраты на хранение одного образа в памяти 1/24 Е-.
Энергетика каждого прогнозируемого ИС символа равна 1Е+,
Усредненный на 12 тактов энергетический баланс ИС =
-N(обработка) -1/2N(хранение) + (12-N)(прогнозирование) = (12 - 5/2N)*E
Результаты эксперимента
Первая структуризация словаря ИС
Форма словаря: (наибольший размер образа один символ):

<М><А><К><Р><И><С><Л><Е><Н><Д><У><Б>,

R(ИС)=12R*(0,5Е-/R) = 6E-,

прогнозирование (Т) = 0Т (т.к. у образа только один символ),

затраты энергии на распознавание = 12E
контролирование потенциальной энергии ТФ = 0E+.
Итог: для односимвольного словаря усредненный энергетический
баланс = 18E- .
Усредненный энергетический баланс ИС назовем
эволюционным потенциалом ИС
7
8
Вторая структуризация словаря ИС
(наибольший размер образа два символа):





а) Минимальная форма словаря:
<МА><К><РИ><С><ЛЕ><Н><ДУ><Б>:
R(ИС)=8R =4Е-, прогнозирование = 0,5Т (на образ),
затраты энергии на распознавание = 8E-,
контролирование потенциальной энергии ТФ = 4E+.
Итог а) 4Е- + (0,5Т * 8(образов на ТФ=12) = 4E+) + 8E- = 8E- .

б) Максимальная форма (без полного пересечения):
<МА><КЛ><КР><КД><КМ> <ЛЕ>…<БД>:
R(ИС)= 20R=10Е-, прогнозирование = 0,2Т (на образ),
затраты энергии на распознавание = 20E-,
контролирование потенциальной энергии ТФ = 4E+.
Итог б) 10Е- + (0,2Т * 20(образов на ТФ=12) = 4E+) + 20E- = 26E- .

Итоговый лучший эволюционный потенциал = 8E- .




9
Третья структуризация словаря
(наибольший размер образа в три символа).





а) Минимальная форма словаря: <МАК><РИС><ЛЕН><ДУБ>:
R(ИС)=4R =2Е-, прогнозирование = 2Т (на образ),
затраты энергии на распознавание = 4E-,
контролирование потенциальной энергии ТФ = 8E+.
Итог а) 2Е- + (2Т * 4(образов на ТФ=12) = 8E+) + 4E- = 2E+.

б) Максимальная форма (без дублирования, т.е. без полного
пересечения): <АКР><ИСР><ИСМ><АКД> <УБЛ><ЕНД> … <АКМ>:
R(ИС)= 36R=18Е-,
прогнозирование (Т) = +4E,
затраты энергии на распознавание = 36E-,
контролирование потенциальной энергии ТФ = 0E+.
Итог б) = 50E- .

Лучший итоговый эволюционный потенциал = 2E+ , 50E-  2E+(!!).





10
Четвертая структуризация словаря
(наибольший размер образа в четыре символа)





а) Минимальная форма словаря: <МАК><РИС><ЛЕН><ДУБ>:
R(ИС)=4R =2Е-, прогнозирование = 2Т (на образ),
затраты энергии на распознавание = 4E-,
контролирование потенциальной энергии ТФ = 8E+.
Итог а) 2Е- + (2Т * 4(образов на ТФ=12) = 8E+) + 4E- = 2E+.

б) Максимальная форма (без дублирования):
<АКРИ><ИСРИ><ИСМА> <АКДУ><УБЛЕ><ЕНДУ> … <АКМА>:
R(ИС)= 48R=24Е-, прогнозирование (Т) = 0Т (на образ),
затраты энергии на распознавание = 48E-,
контролирование потенциальной энергии ТФ = 0,5E+.
Итог б) = 78E- .

Лучший итоговый эволюционный потенциал = 2E+ , 78E-  2E+




11
Пятая и другие структуризации словаря
Лучший итоговый эволюционный потенциал =
2E+ , 204E-  2E+
Шестая структуризация словаря, седьмая … и т.д.  2E+ !!!
Худший - E

Теоретический анализ результатов эксперимента
показывает, что эволюционный потенциал ИС
обратно пропорционален размеру словаря,
Размеры минимальных и максимальных словарей ИС
соотносятся как:
o(N) и o(N3) !!!
где: N – максимальный размер образа словаря
12
Автоструктуризация
информации в ИС
МАКРИСРИСМАКДУБЛЕН…
ПО
МАК
РИС
ЛЕН
ДУБ
£

t01
t02
t03
N
Минимальный
словарь ИС
-----> ! ! !
Образы ИС =
процессам ПО
ИС
АКР
ИСР
ИСМ
АКД
УБЛ
ЕНД
…
АКМ
РИС
ДУБ
МАК
ЛЕН
min
N2(L-1)=32
СN
[L/£]
L=3
N=4
2+ [L/£]
=N
max
o(N3) >> o(N) !!!
max
min
13
Автоструктуризация
иерархических процессов
ПО
…ДА КОЛЯ ЛОВИТ РЫБУ СА…
Подл. Сказ. Обст.
{…}{…}{…}
иерархические
процессы
Подл. Сказ. Обст.
ИС
{…}{…}{…}
иерархическая
структура
словарей образов
При минимизации словаря на
нейросемантических структурах,
его топология гомоморфна
структуре исходных процессов ПО
Нейросемантическая форма
представления информации
НСС
Номера
слоев
Предметная область
6
N-элементы
5
Связи
4
3
2
1
Алгоритм
НСС
11011010001101101001-
0
"0" "1"
Семантика, тексты ПО,
содержание процессов
1
2
3
4
5
6
Номера элементов в слоях
Автоматическое выделение образов-процессов из
предметной области в нейроподобные элементы НСС
при минимизации ресурсных затрат (памяти)
N-элемент (образ НСС)  процесс предметной области
14
15
Автоструктуризация на
нейросемантических структурах
RИС = f(число N-элементов, число связей)в битах
1/P (компрессия) = ---------------------------------------------------------  0
при t   TФИС = объем текстовой информации в ИС в битах
или RИС / TФИС  0 и RИС  const, при t  M
при t  
Примеры:
а) <RISMAKDUBLENLENDUBMAKMAKLENRISRISLENMAKRISDUBRIS>
правильно выделяются все процессы: <MAK><RIS><MAK><DUB>;
б)<ДОМЗЕБРЫСКИТНАДОМДОМВНАДОМВСКИТВНАСКИТВВЗЕБРЫНАВНА>,
правильно выделяются все процессы:<ЗЕБРЫ><СКИТ><ДОМ><НА>
<В>.
сдвиг алфавита А в кодах ASCII в примере б)
<ЕПНИЖВСЬТЛЙУОБЕПНЕПНГОБЕПНГТЛЙУГОБТЛЙУГЖВСЬОБГОБ> на +1
<?IGB@<KVLECMH;?IG?IG=H;?IG=LECM =H;LECM==B<KVH;=H;{> на -133.
НСС – это пример 1-го формального преобразования
количественной текстовой формы представления
информации в качественно новую форму –
структуру образов ИС
1—
Автоструктуризация
0
"с учителем"
– "школа"
"без учителя"
 "игра"
log (tn)
(в битах)
Критерии достаточности: а) все пространство состояний;
б) если человек может правильно структурировать данный текстовой материал в непривычной, но взаимнооднозначной нотации,
в) наличие характерных особенностей динамического процесса
при минимизации ресурса RИС
16
По минимальной функции затрат ресурсов ИС Rис
можно объективно определять процессы ПО
Автомат "животн." ИС-человек
БШ
ПО
bsejgr…
ПС
abcabc...
"Телесериал"
Реальный
Mather…
RИС
При TИС = const (t)
f = (RИС (t)) :
Сигнал
С
С
С
Информация
И
И
С
ИС
RИС
RИС
t
Знание
t
t
линейная; логарифмическая; const;
функции затрат Rис
Определения:
Информация – знаковая последовательность на языке системы,
соответствующая целому числу причинно-связанных процессов ПО
…
17
18
Теорема: минимальная форма словаря ИС может достигаться
только при ее изоморфности исходной структуре процессов ПО
Доказательство: Если представить формирование текстовой
формы двумя независимыми и непересекающимися
процессами А и Б, то становится очевидным,
ИС
проц. А
проц. Б
010010 УКЛОН ЭРМИТАЖ 101010010
образ А
образ Б
ПО
что минимальным словарем образов закрашивающим эти два
процесса могут быть только образы совпадающие по текстовой
форме с генерирующих их процессами.
На вопрос: "Почему все организмы 'единодушны' в кластеризации окружающего нас мира на отдельные образы ?"
Вытекает ответ: "Т.к. минимальный словарь, дает эволюционные преимущества, то все ИС данной ПО выбирают
его, а соответственно, и его образы".
Download