Из школьных уроков вы знаете, что масса измеряется с помощью граммов, а единицей измерения для времени является секунда. Информацию также можно измерить, и для этого существует три подхода: алфавитный, содержательный и вероятностный. Рассмотрим первый из них.
Сущность алфавитного подхода
Алфавитный подход применяется в цифровых системах хранения и передачи информации, в которых используется двоичный способ кодирования информации, то есть с помощью 0 и 1. Для определения количества информации алфавитный подход учитывает только объем кода, а не содержание информации. Итак, с помощью i-разрядного двоичного кода можно закодировать алфавит, состоящий из N символов, при этом N является целой степенью двойки и называется мощность алфавита.
Если i = 2, то в алфавите получится всего 4 символа (N = 4):
00 01 10 11
Пример.
Если i = 3, то мощность алфавита будет равна 8 символов (N = 8):
000 001 010 011 100 101 110 111
Из примеров видно, что величина i – это длина двоичного кода, с помощью которого кодируется один символ алфавита, она называется информационным весом символа и определяется из уравнения:
Единицы измерения информации
В двоичном коде цифра (0 или 1) несет одну наименьшую единицу информации, которая называется 1 бит.
Помимо битов существуют более крупные единицы измерения информации. Чтобы не запутаться при решении задач, следует запомнить таблицу переводов, представленную ниже:
1 байт | = 23 бит | = 8 бит |
---|---|---|
1 Кб (килобайт) | = 210 байтов | = 1024 байта |
1 Мб (мегабайт) | = 210 Кб | = 1024 Кб |
1 Гб (гигабайт) | = 210 Мб | = 1024 Мб |
1 Тб (терабайт) | = 210 Гб | = 1024 Гб |
Рассмотрев формулу информационного веса символа и единицы измерения информации, решим задачу.
Давайте попробуем посчитать. Кодировка предполагает, что каждому символу алфавита мы ставим в соответствие уникальный набор битов, т.е. у всех символов эти наборы разные. Количество комбинаций N, которое можно составить из i битов (каждый их них может быть либо 0, либо 1), будет равно:
\(N = 2^{i}\)
В нашем случае N = 26. Получаем
\(26 = 2^{i}\)
26 не является степенью двойки, но это не страшно — нам надо найти такое минимальное i, чтобы 2i точно было больше 26:
24 = 16 – не подходит (получается, что с помощью 4 бит мы можем закодировать только 16 символов);
25 = 32 — подходит.
Нашли, что i = 5, т.е. вес одного символа — 5 бит.
Информационный объем
Теперь, когда мы умеем находить вес одного символа, рассмотрим, как находить информационный объем слова, предложения или текста. Для этого обозначим буквой K – количество символов в тексте, записанном с помощью алфавита, i – информационный вес одного символа, тогда информационный объем I текста в битах можно выразить с помощью формулы:
Одна буква весит 5 бит, значит, 10 букв будут весить 5×10 = 50 бит.