Uploaded by Оксана Оксаночка

Алфавитный подход к измерению информации

advertisement
АЛФАВИТНЫЙ ПОДХОД К ИЗМЕРЕНИЮ ИНФОРМАЦИИ
Введение
Компьютер может хранить и обрабатывать информацию только в виде комбинации
электрических сигналов двух типов, которые принято обозначать 0 и 1. Любая информация
представляется в компьютере последовательностью этих сигналов. Такие последовательности
называют двоичными кодами. 0 и 1 в коде самая мелкая единица информации которая
называется битом.
Длина кодовой группы (количество 0 и 1).
Пример. Закодировать (записать) все буквы русского алфавита одинаковым количеством
нулей и единиц, но так, чтобы каждой букве соответствовал особый номер.
1) Если взять только два знака: 0 и 1, то удается закодировать только 4 буквы:
А=00 Б=01 В=10 Г=11
Это объясняется тем, что число комбинаций из двух символов (битов) 0 и 1 по два равно 22=4.
2) Если взять три знака:
А=000
Б=001
В=010
Г=011
Д=100
Е=101
Ж=110
3=111
Число комбинаций равно 23 = 8
3) Легко догадаться, что 25 =32, т.е. использование пяти знаков позволяет закодировать
однозначно каждую букву русского алфавита.
Но для представления произвольной информации в компьютере недостаточно закодировать
только буквы. Поэтому кодирование букв (заглавных и прописных латинского и русского
алфавитов), цифр, знаков препинания, спецзнаков и прочее требует использования 8 знаков (1
символ записывается кодом из 8 нулей и единиц).
Двоичный 8-разрядный код позволяет закодировать 28 =256 различных символов.
Соответствие между символами и их кодами задается с помощью таблиц кодов
Код - это ключ для перевода информации из одной формы в другую.
Кодирование - процесс преобразования информации в совокупность символов,
определяемую кодом.
На заре развития компьютерной техники, когда компьютеры были слабые и не было большого
объема памяти, кодировки представляли собой таблицу все символы, которой могли быть
представлены всеми возможными комбинациями числа в 16-ричной системе счисления или 256
возможных символов.
По этой причине не было возможности создать единую кодировку для всех языков в мире.
Каждая кодировка содержала в себе символы своего национального алфавита.
Для символов латиницы, как правило, использовалась кодировка ASCII:
Для символов кириллицы были созданы кодировки windows-1251 и KOI8-R. Это произошло
из-за того, что этими кодировками занимались сразу несколько фирм, чтобы обеспечить
поддержку русского языка для своих компьютеров.
1
Таблица с кодировкой Windows-1251
Кодировка KOI8-R:
С развитием вычислительной мощности компьютеров, стало возможным для кодирования
различным символов использовать намного больше единиц информации и решено было
создать универсальную кодировку для всех языков в мире. Такой кодировкой стала кодировка
UTF (Юникод).
Это огромная таблица, которая содержит более 1 миллиона закодированных символов.
Вот небольшая часть этой таблицы:
В настоящее время эта кодировка стала стандартом для всех компьютеров в мире. Юникод
содержит не только символы мировых алфавитов, но и различные значки, смайлики и др.
символы.
2
Алфавитный подход к измерению информации
Выдающийся советский математик прошлого века Андрей Николаевич Колмогоров
предложил подход к измерению информации, который получил название алфавитный.
Алфавит – это множество отличных друг от друга символов, используемых в каком-либо
языке.
Мощность алфавита - это количество символов в нем.
Примеры:
алфавит
кириллица
латиница
двоичная
система
счисления
десятичная
система
счисления
АБВГДЕЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯ
ABCDEFGHIJKLMNOPQRSTUVWXYZ
мощность
алфавита (N)
32
26
10
2
0123456789
10
При алфавитном подходе один бит – это количество информации, которое можно
передать сообщением из одного двоичного значка, то есть «0» или «1».
Важные особенности алфавитного подхода:

сообщения, записанные на естественном языке, кодируются без учета их смыслового
содержания (такой подход является объективным);

каждый символ несёт одинаковое количество информации, не учитывается, что
некоторые символы могут встречаться в сообщении чаще других.
Информационная емкость одного символа
Количество информации i, которое несет один символ (информационная емкость одного
символа алфавита) в тексте, и мощность алфавита N связаны формулой:
2i = N
Пример 1. Определить по формуле количество информации, которое несет знак в двоичной
знаковой системе
Решение
Ответ: информационная емкость знака двоичной знаковой системы составляет 1 бит.
Пример 2. Определить, какое количество информации несет буква русского алфавита (без
буквы ё).
Решение
Ответ: буква русского алфавита несет 5 битов информации.
Количество информации в сообщении
Сообщение состоит из последовательности знаков, каждый из которых несет определенное
количество информации.
Количество информации в сообщении можно посчитать, умножив количество информации,
которое несет один знак на количество знаков в сообщении.
где — количество информации в сообщении
— количество информации, которое несет один знак
— количество знаков в сообщении
3
Пример 1. Определить какое количество информации содержит слово «ПРИВЕТ», если
считать, что алфавит состоит из 32 букв?
Дано:
К=6
N = 32
Найти:
Ic -? (Какое количество информации содержит слово «ПРИВЕТ»)
Решение
1)
2)
= 6 * 5 = 30 (бит)
Ответ: слово «Привет» содержит 30 бит информации.
Пример 2. Информационное сообщение объёмом 720 битов состоит из 180 символов.
Какова мощность алфавита, с помощью которого записано это сообщение?
Дано:
Iс = 720 бит
K = 180 символов
Найти:
N-?
Решение
1) I = Ic / K = 720 / 180 = 4 (бита)
2) N = 24 = 16
Ответ: мощность алфавита 16.
4
Download