АВТОМАТИКА, ЕЛЕКТРОНІКА, ПРИЛАДОБУДУВАННЯ УДК

реклама
АВТОМАТИКА, ЕЛЕКТРОНІКА, ПРИЛАДОБУДУВАННЯ
УДК 621.391.1
О РАЗЛОЖЕНИИ КОНЕЧНОГО БЕРНУЛЛИЕВСКОГО
ИСТОЧНИКА МНОГОЗНАЧНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ
А.А. Борисенко, проф.
Одной из важнейших задач в теории информации, существовавшей в прошлом и оставшейся актуальной
и сегодня, является задача сжатия сообщений. На ее решение направлены значительные усилия. Количество
методов и алгоритмов по теории и практике сжатия растет со все возрастающей быстротой. К задачам
сжатия относятся сейчас не только задачи уменьшения длины передаваемых или хранимых сообщений, а и
задачи построения оптимальных вопросников, поиска кратчайшего пути на графе, определения сложности
комбинаторных объектов.
Основное место в теории сжатия занимает задача оптимального кодирования источников сообщений.
Они делятся на два класса - комбинаторные и вероятностные. Вероятностные источники в отличие от
комбинаторных должны иметь хотя бы два сообщения, отличающиеся друг от друга неравными нулю
величинами своих вероятностей. Если при этом вероятности генерируемых знаков в сообщениях источника
не зависят от значений предыдущих знаков, то такой источник называется бернуллиевским [ 1 ]. Этот
источник сравнительно грубо моделирует реальные процессы генерирования информации, но в силу своей
эффективности и простоты довольно широко распространен на практике.
В данной работе предлагается метод оптимального кодирования, использующий в своей основе
разложение бернуллиевского вероятностного источника, генерирующего сообщения конечной длины, на два
взаимосвязанных, в сумме обладающих энтропией исходного источника. При этом один из этих источников,
являющийся основным, преобразуется в комбинаторный, а другой остается вероятностным, но генерирует
сообщения отличные от исходных. Это приводит, во-первых, к значительному уменьшению общего числа
слагаемых в выражениях для энтропии источников и, значит, к уменьшению вычислительных сложностей
их определения и, во-вторых, к возможности разработки универсального оптимального кода с
равномерными кодовыми комбинациями. Универсальность такого кода
проявляется в том, что
генерируемые им равномерные коды являются оптимальными для любого распределения вероятностей
сообщений, что позволяет производить одну и ту же процедуру оптимального кодирования для различных
вероятностей исходных сообщений.
Рассмотрим обычный конечный стационарный вероятностный бернуллиевский источник, для которого
дан алфавит букв сообщений А={а1, а2,..., аi,..., ак}, генерируемых источником А, с вероятностями
соответственно (a1),(a2),...,(ai),...,(ak), образующими последовательности (слова) L= (l1, l2,..., ln), lA,
=1,2,..., n.
Для такого источника вероятность любой буквы li в последовательности Lj не зависит от ее
местоположения и предшествующих ей букв и не изменяется в течении неопределенно долгого времени.
Энтропия источника А*
kn
H(А*)=

j 1
Pj log2Pj,
(1)
где Pj - вероятность генерирования источником А* последовательности Lj букв ai  A, j=1,2,...,kn.
Каждая последовательность Lj содержит в определенном порядке r1 букв а1, r2 - букв а2 и т.д. до rk
букв ak . При этом
k

i 1
ri  n .
Вероятность ее генерирования
Pj = r1(a1) r2(a2) ...  ri(ai) ... rk(ak).
(2)
Для бернуллииевского источника число последовательностей Lj с вероятностью Pj будет ровно столько,
сколько перестановок с повторениями можно получить из r1, r2, ..., r k букв:
П(r 1, r 2, ... , r k) =
n!
r 1! r 2 ! . . . r k !
,
(3)
r 1  0, r 2  0,..., r i  0,..., r k  0; r 1+ r 2+ ... + r k = n.
При этом выбор признака множества слов, задаваемого значениями r 1,
r 2,..., r k , будет происходить с вероятностью
1
.
(4)
Ï ( r 1, r 2,  , r k )
Выбор слова Lj уже с этого множества будет происходить с вероятностью
P r1,r2,..., r k = Рj П(r1,r2,...,r k)=
Рj r1,r2,...,r k =
P
.
P r 1, r 2, ..., r k
(5)
Теорема. Энтропия H(А*) вероятностного стационарного бернуллиевского источника А* равна сумме
энтропий вероятностного бернуллиевского источника В:
Н(В)=
 Pr ,r

1
r 1+ r 2+ ...+ r k = n
ri  0
2,,r k log2 P r1,r2,...,r
k
,
(6)
генерирующего последовательности чисел r1, r2,..., rk, и энтропии комбинаторного источника А:
Н(Аl В)=

 Pr ,r
1
r 1+ r 2+ ...+ r k = n
2,,r k log2 П(r1,r2,...,rk),
(7)
т.е. требуется доказать, что
H(А*) = Н(Аl В)+Н(В) .
(8)
Доказательство. Если источник А выдал слово длиной n, то путем элементарного подсчета легко
определяются числа r1, r2,..., r k , содержащихся в нем букв a1, a2,..., aк и соответственно с помощью формул
(2,4) вычисляется его энтропия Н(В).
Энтропия источника А, при условии, что от источника В получены значения чисел r1, r2,..., r k букв в
генерируемом источником А* слове, равна
*
 Pr ,r
Н(Аl В)= 
ri  0
1
r 1 + r 2+ ...+ r k = n
2,,r k Hj | r1,r2,...,r k ,
(9)
где
Ï ( r 1, r 2,..., r k )

Hj | r1,r2,...,r k = 
Pj | r1,r2,...,rk log2 Рj | r1,r2,...,r k
j 1
- (10)
энтропия слов Lj, входящих во множество, состоящее из слов, содержащих r1, r2,..., r k букв a1, a2,..., aк .
В соответствии с (5)
Ï ( r 1,r 2,...,r k)
1
j 1
Ï ( r1,r2, ,r k)

Hj| r1,r2,...,r k =
х log 2
1
Ï ( r 1, r 2,  , r k )

 log 2
х
1
= log2 П(r1,r2,...,rk).
Ï ( r 1, r 2,  , r k )
Тогда
Н(Аl В)= 
ri  0
 Pr ,r
1
r 1 + r 2+ ...+ r k = n
2,,r k log2 П(r1,r2,...,r k) .
Энтропия объединения
H(А,В) = Н(Аl В)+Н(В) =
=
 Pr ,r
1
r 1 + r 2+ ...+ r k = n
ri  0
2,,r k log2 П(r1,r2,...,r k) 
(11)
 Pr ,r

1
r 1 + r 2+ ...+ r k = n
ri  0
=
ri  0

2,,r k log2 P r1,r2,...,r k =
 Pr ,r
1
r 1 + r 2+ ...+ r k = n
2,,r k log2 Рj .
Так как каждому значению P r1,r2,...,rk соответствует П(r1,r2,...,r k) вероятностей Рj источника А*, то
Kn
Н(Аl В)+Н(В)=

Pj log2 Рj = H(А*).
Теорема доказана.
j1
Следствием теоремы является предлагаемый ниже метод оптимального кодирования сообщений
равномерными кодами. Его первым шагом является выделение с источника А* источника В.
Процедура построения источника В состоит в подсчете значений r1,r2,...,r k в генерируемых источником
А* последовательностях букв L. Тем самым определяется класс эквивалентности, к которому относится та
или иная генерируемая последовательность Li, и формируется источник А. Этот класс содержит П(r1,r2,...,rk)
последовательностей L, и поэтому полученный источник А генерирует последовательности с вероятностями
равными 1/ П(r1,r2,...,r k).
Вторым шагом рассматриваемого метода будет оптимальное кодирование равномерных сообщений
источника В одинаковой длины любым известным методом, например, одним из методов нумерационного
кодирования [ 2 ].
Третий шаг содержит оптимальное кодирование вероятностного источника В одним из известных
алгоритмов оптимального неравномерного кодирования [ 3 ], для чего нужно определить вероятности P
r1,r2,...,rk векторов (r1,r2,...,r k).
Четвертый шаг состоит в формировании результирующего сжатого отображения, генерируемой
источником А последовательности, что производится путем объединения последовательностей букв от
источника А и В в одну последовательность .
r
r
В случае К=2 П(r1, r2,..., rk) = П(r1, r2) = Ñr11  r2  Ñr12 r2 .
Это значит, что рассматриваемый метод является обобщением соответствующего метода для сжатия
двоичных последовательностей [ 4 ].
Особенностью предлагаемого метода оптимального кодирования
сообщений путем разложения
исходного источника А* на взаимозависимые А и В является то, что влияние источника В с увеличением
длины кодируемых сообщений снижается и теоретически при n   им можно пренебречь. Тогда
эффективность сжатия (оптимального кодирования) будет определяться только эффективностью
кодирования источника А, которая при соответствующем распределении вероятностей P r1,r2,...,rk может
достигать больших значений.
Из этого можно сделать вывод о целесообразности использования предложенного метода сжатия для
сообщений большой длины, например, для задач обработки видеоизображений.
SUMMARY
The method of optimum coding of discrete sources of information by means of source decomposition into two mutually complemental ones,
one of which determines the letters” number in sequenses, generated by the basic source,and the other one determines the coded messages,
which take into account these numbers , is suggested.
Such decomposition gives an opportunity to present one probability source by two sources, one of which is compound , and accordingly to
apply a structural methods of information compression for even codes.
СПИСОК ЛИТЕРАТУРЫ
1.
2.
3.
4.
Кричевский Р.Е. Сжатие и поиск информации. -М.: Радио и связь, 1989.- 268 с.
Амелькин В.А. Методы нумерационного кодирования.- Новосибирск: Наука, 1986.- 158 с.
Кузмин И.В., Кедрус В.А. - К.: Вища шк., 1986.- 238 с.
Борисенко А.А. О разложении бернуллиевских источников информации // Вiсник Сумського державного університету.- 1995.-№3. С. 57-59.
Поступила в редколлегию 23 июня 1998 г.
Скачать