Существует три подхода к измерению информации: алфавитный, содержательный и вероятностный. Раскроем основные аспекты второго подхода, основанного на теории информации.
Согласно данной теории,
Разберемся с каждым словосочетанием данного определения.
«Снять неопределенность знания человека…» означает выявить количество возможных вариантов ответа на какой-либо вопрос.
Рассмотрим две ситуации.
Ситуация 1. Ваш друг подбросил монетку, и вы спрашиваете у него «Выпал орел или решка?». Он ответил: «Орел».
Ситуация 2. Теперь друг кидает игральный кубик. Когда кубик остановился, вы узнали, что выпала грань с пятью точками.
«… об исходе какого-то события». К событиям относятся описанные примеры, но с одним важным условием: все возможные исходы этих событий должны быть равновероятны. То есть в первом случае событием назовем подбрасывание монеты, тогда исходы (орел и решка) имеют одинаковую вероятность, во второй ситуации событие – это подбрасывание игрального кубика, и шесть равновероятных исходов.
Сущность содержательного подхода
В отличие от алфавитного подхода (в котором содержание информации не имеет значение), содержательный подход опирается на определение информации как содержание сообщения и заключается в следующем:
При это чем больше неопределённость знания в начале, тем больше информации несет сообщение, которое снимает неопределенность.
Возвращаемся к нашим ситуациям.
Единица измерения информации
Сообщение, сокращающее в два раза неопределенность знания об исходе какого-либо события, имеет 1 бит информации.
Рассмотрим еще одну ситуацию, чем монетка и игральный кубик.
Пример. Вы впервые идете в гости к вашему другу. Подходя к 16-этажному дому, вы позвонили товарищу, чтобы узнать, на какой этаж подняться. Но он предложил угадать этаж, задав наименьшее количество вопросов, при этом ответ может быть либо «да», либо «нет».
Ваш первый вопрос:
– Этаж выше 8?
– Да.
– Этаж выше 12?
– Нет.
– Этаж выше 10?
– Да.
– Это 12 этаж?
– Нет.
– Получается, ты живешь на 11 этаже.
В алфавитном подходе к измерению информации используется формула:
где N – мощность алфавита, а i – информационный вес одного символа алфавита.
Для содержательного подхода эта формула тоже имеет место, если все символы алфавита появляются в тексте равновероятно, то есть с одинаковой частотой. Тогда информационный вес i равен количеству информации в сообщении о появлении любого символа в тексте, а N – это неопределенность знания о том, какой именно символ алфавита должен стоять в данной позиции.
Пример. Вернемся к рассмотренному примеру с этажами. Пусть в доме не 16, а 8 этажей. С помощью уравнения \(2^{i} = N\) найдем количество информации в сообщении о номере искомого этажа.
\(2^{i} = 8\)
Получаем i = 3 бита.
Формула Хартли
Для измерения количества информации, когда N не является степенью двойки, применяем формулу Ральфа Хартли, основоположника теории информации, который предложил формулу:
где i – количество информации, содержащееся в сообщении об одном из N равновероятных исходов события.
В математике данная функция называется логарифмом.
Уравнение \(i = \log_{2}N\) читается, как «логарифм от N по основанию 2». В данном случае i – это степень, в которую нужно возвести 2, чтобы получить N.
\(\log_{2}4 = 2\ (т.к.\ 2^{2} = 4)\)
\(\log_{2}8 = 3\ (т.к.\ 2^{3} = 8)\)
В случаях, когда N не является степенью двойки, задачу можно решать с помощью инженерного калькулятора или табличного процессора Microsoft Excel, где есть встроенная функция логарифма.
Пример. Найдем \(\log_{2}5 = \ ?\)
Теоретически содержательный подход к определению количества информации может давать дробный результат, но если говорить про физическую сторону работы компьютера, то нецелое значение всегда нужно округлять до целого в большую сторону.