Вероятностный подход к определению количества информации. Теория информации Шеннона Повторение (алфавитное измерение информации) 1) Сообщение, записанное буквами 32-символьного алфавита, содержит 120 символов. Какой объем информации оно несет. 2) Была получена телеграмма: «Встречайте вагон 11». Известно, что в составе поезда 32 вагона. Какое количество информации было получено? 3) При угадывании целого числа в диапазоне от 1 до N было получено 6 бит информации. Чему равно N? 4) Сообщение занимает 8 страниц по 10 строк. В каждой строке по 60 символов. Сколько символов в использованном алфавите, если сообщение содержит 3200 кбайт информации? Задача: Какое сообщение содержит большее количество информации? • В библиотеке 8 шкафов. Книга нашлась в 3-м шкафу; (Отв.: 3 бит.) • Вася получил за экзамен оценку 4 (по 5-бальной системе единицы не ставят). (Отв.: 2 бит.) • Бабушка испекла 12 пирожков с капустой, 12 пирожков с повидлом. Маша съела один пирожок. (Отв.: 1 бит.) • Бабушка испекла 8 пирожков с капустой, 24 пирожка с повидлом. Маша съела один пирожок. Для вычисления количества информации в сообщении о используют следующую формулу: I=log2(1/p) неравновероятном событии где I – это количество информации, р – вероятность события. Вероятность события выражается в долях единицы и вычисляется по формуле: р=K/N, где К – величина, показывающая сколько раз произошло интересующее нас событие, N – общее число возможных исходов какого-то процесса. Вернемся к нашей задаче. Пусть К1 – это количество пирожков с повидлом, К1=24 К2 – количество пирожков с капустой, К2=8 N – общее количество пирожков, N = К1 + К2 = 24 + 8 = 32 Вычислим вероятность выбора пирожка с разной начинкой и количество информации, которое при этом было получено. Вероятность выбора пирожка с повидлом: р1 = 24/32 = 3/4 = 0,75. Вероятность выбора пирожка с капустой: р2 = 8/32 = 1/4 = 0,25. Обращаем внимание учащихся на то, что в сумме все вероятности дают 1. Вычислим количество информации, содержащееся в сообщении, что Маша выбрала пирожок с повидлом: I1 = log2(1/p1) = log2(1/0,75) = log21,3 = 0,415 бит. Вычислим количество информации, содержащееся в сообщении, если был выбран пирожок с капустой: I2 = log2(1/p2) = log2(1/0,25) = log24 = 2 бит. 1 При сравнении результатов вычислений получается следующая ситуация: вероятность выбора пирожка с повидлом больше, чем с капустой, а информации при этом получилось меньше. Это не случайность, а закономерность. Качественную связь между вероятностью события и количеством информации в сообщении об этом событии можно выразить так: чем меньше вероятность некоторого события, тем больше информации содержит сообщение об этом событии. Вернемся к нашей задаче с пирожками. Мы еще не ответили на вопрос: сколько получим информации при выборе пирожка любого вида? Ответить на этот вопрос нам поможет формула вычисления количества информации для событий с различными вероятностями, которую предложил в 1948 г. американский инженер и математик Клод Шеннон. Если I - количество информации, N - количество возможных событий, рi - вероятности отдельных событий, где i принимает значения от 1 до N, то количество информации для событий с различными вероятностями можно определить по формуле: можно расписать формулу в таком виде: Клод Шеннон предложил свою теорию для определения количества информации в 1948 году. Однако еще в XIX веке аналогичное выражение было получено Больцманом. Он получил его как формулу для энтропии, когда занимался проблемами статической физики. Энтропия физической системы служит мерой неопределенности системы. С точки зрения теории информации можно считать, что энтропия системы является мерой неопределенности состояния элементов системы. Однако и количество информации рассматривают как меру уменьшения неопределенности состояния системы. Эта интерпретация позволяет легко понять, почему Больцман получил такую же формулу, как и Шеннон для определения количества информации. (Энтропия – среднее количество информации, приходящееся на одно состояние физической системы) Рассмотрим формулу на примере нашей задачи: I = - (0,25∙ log20,25 + 0,75∙ log20,75) ≈ 0,81 бит Интересно, что рассматриваемые нами формулы классической теории информации первоначально были разработаны для технических систем связи, призванных служить обмену информацией между людьми. Работа этих систем определяется законами физики т.е. законами материального мира. Задача оптимизации работы таких систем требовала, прежде всего, решить вопрос о количестве информации, передаваемой по каналам связи. Поэтому вполне естественно, что первые шаги в этом направлении сделали сотрудники Bell Telephon Companie – X. Найквист, Р. Хартли и К. Шеннон. Приведенные формулы послужили К. Шеннону основанием для исчисления пропускной способности каналов связи и энтропии источников сообщений, для улучшения методов кодирования и декодирования сообщений, для выбора помехоустойчивых кодов, а также для решения ряда других задач, связанных с оптимизацией работы технических систем связи. Совокупность этих представлений, названная К. Шенноном “математической теорией связи”, и явилась основой классической теории информации. (Дополнительный материал можно найти на сайте http://polbu.ru/korogodin_information или прочитав книгу В.И. Корогодин, В.Л. Корогодина. Информация как основа жизни. Формула Шеннона.) Можно заметить, что если вероятности p1, p2, …, pn равны между собой, то каждая из них равна p1 = p2 = … = pn = 1/N, тогда формула принимает вид: Мы видим, что формула Хартли является частным случаем формулы Шеннона. 2 Задачи для тренировки 1) В корзине лежат 8 черных шаров и 24 белых. Сколько информации несет сообщение о том, что достали черный шар? Дано Решение N1 = 8 I1 = log2(1/p1) N2 = 24 p1 = N1/N; p1 = 8/(8+24); Определить: I1 = log24; I1 = 2(бита) I1 p1 = 1/4 Ответ: 2 бита Задача: В корзине лежат 32 клубка красной и черной шерсти. Среди них 4 клубка красной шерсти. Сколько информации несет сообщение, что достали клубок красной шерсти? Сколько информации несет сообщение, что достали клубок шерсти любой окраски? Дано: Кк = 4; N = 32 Найти: Iк, I Решение: 1.Найдем количество клубков черной шерсти: Кч = N - Кк; Кч = 32 - 4 = 28 2.Найдем вероятность доставания клубка каждого вида: p к= Кк/N = 4/32 = 1/8; pч = Кч/N = 28/32 = 7/8; 3.Найдем количество информации, которое несет сообщение, что достали клубок красной шерсти: Iк = log2(1/(1/pк)) = log2(1/1/8) = log28 = 3 бит 4.Найдем количество информации, которое несет сообщение, что достали клубок шерсти любой окраски: Ответ: Iк = 3 бит; I = 0,547 бит Домашнее задание: Задача 1. В коробке 50 шаров, из них 40 белых и 10 черных. Определить количество информации в сообщении о вытаскивании наугад белого шара и черного шара. Задача 2. В коробке 10 белых шаров, 20 красных, 30 синих и 40 зеленых. Определить количество информации в сообщении о вытаскивании наугад белого шара, красного шара, синего шара, зеленого шара, шара любого цвета. Задача 3. В озере живут караси и окуни. Подсчитано, что карасей 1500, а окуней 500. Сколько информации содержится в сообщениях о том, что рыбак поймал карася, окуня, поймал рыбу? Задача 4. В озере живут 8000 карасей, 2000 щук и 4000 пескарей. Сколько информации содержится в сообщениях о том, что рыбак поймал карася, щуку, пескаря, поймал рыбу? 3