Объём памяти текстовой информации

В компьютере все символы представляются в виде кода из 0 и 1. Для работы с кодированием цифр, букв и других символов, таких как знаки препинания, пробелы, арифметические операции и т.д. были придуманы таблицы кодировок.

Количество символов необходимое нам для набора текста, состоящего из этих специальных символов, цифр и букв английского алфавита было закодировано с помощью таблицы ASCII (American Standard Code for Information Interchange). В этом наборе вес одного символа имеет 7 бит (2⁷ - ближайшая максимальная степень двойки). Но в рамках этой таблицы создание многоязычных документов оказалось очень проблематичным. Эту кодировку пытались расширять, и это получалось, но программное обеспечение должно было следить за кодовыми страницами, и смешивать языки оказалось невозможным.

Позже появилась еще одна кодировка Unicode, которая позволяла закодировать 1 114 112 символов. Стандарт Unicode поддерживается тремя формами:

32-битной (UTF-32) – вес символа – 32 бита

16-битной (UTF-16) – вес символа – 16 бит

8-битной (UTF-8). – вес символа – 8 бит.

Для экзамена нужно только понимать, что 32 битной кодировке Unicode один символ весит 32 бита, а в 16 битной - 16 бит, а в 8 битной - 8 бит.

Также существуют кодировки КОИ, которые широко использовались до 2010 года как русскоязычные кодировки. С распространением кодировок Unicod их использование стало очень редким.

С точки зрения информационного объёма документа подобный принцип кодирования прост – каждый символ несёт в себе определённое количество бит, итоговый информационный объём текста определяется как: Вес одного символа* на количество символов в тексте.

Например: пусть часть текста стихотворения «Я к вам пишу – чего же боле? Что я могу ещё сказать?» записана с использованием кодировки UTF – 16, тогда размер этой фразы будет равен:

16 бит (вес одного символа) * 52 (количество символов, учитывая пробелы и знаки препинания) = 832 бита.

Единицы измерения информации.

Для работы с объёмом памяти полезно вспомнить перевод единиц измерения количества информации.

Один двоичный знак — 0 или 1 — называется бит (англ. bit — сокращение от английских слов binary digit, что означает двоичная цифра).

Бит представляет наименьшую единицу информации. Однако компьютер имеет дело не с отдельными битами, а с байтами.

Байтом называется единица, равная 8 (2³) бит.

Ее выделили и назвали отдельно, потому что она имеет важное значение для компьютерной памяти.

В информатике принято получать новые единицы измерения умножением на 2 в различных степенях — 10 (кило-), 20 (мега-), 30 (гига-) и т.д.

1 байт = 8 бит = 2³ бит

1 Кбайт (Килобайт) = 2¹⁰ байт = 2¹³ бит

1 Мбайт (Мегабайт) = 2²⁰ байт = 2²³ бит

1 Гбайт (Гигабайт) = 2³⁰ байт = 2³³ бит

Рассмотрим примеры заданий экзамена, связанных с определением объёма текстовой информации.

Пример 1.

Задание.

В одной из кодировок Unicode каждый символ кодируется 16 битами. Ученик написал текст (в нём нет лишних пробелов):

«Ёж, лев, слон, олень, тюлень, носорог, крокодил, аллигатор – дикие животные».

Ученик вычеркнул из списка название одного из животных. Заодно он вычеркнул ставшие лишними запятые и пробелы – два пробела не должны идти подряд.

При этом размер нового предложения в данной кодировке оказался на 16 байт меньше, чем размер исходного предложения. Напишите в ответе вычеркнутое название животного.

Решение.

Для начала определим количество удалённых из текста символов. Для этого поделим 16 байт (то, на сколько уменьшился текст) на вес одного символа – 16 бит.

\(\frac{16\ байт}{16\ бит} = \ \frac{16*8\ бит}{16\ бит} = 8\ символов\)

Так как по условию задания слово удалялось вместе со ставшими лишними запятой и пробелами, то длинна самого слова – 6 символов (при удалении слова уйдут 1 запятая и 1 пробел).

Название животного длинной 6 символов в тексте одно – это «тюлень».

Ответ: ТЮЛЕНЬ

Пример 2.

Задание.

Статья, набранная на компьютере, содержит 48 страниц, на каждой странице 40 строк, в каждой строке 64 символа. Определите размер статьи в кодировке КОИ-8, в которой каждый символ кодируется 8 битами.

1) 120 Кбайт

2) 240 Кбайт

3) 1920 байт

4) 960 байт

Решение.

Определим количество символов в тексте, для этого умножим количество страниц на количество строк на странице и затем на количество символов строке. Для удобства вычислений будем использовать степени двойки.

\(48*40*64 = {3*2}^{4}*5*2^{3}*2^{6} = \ 15*2^{13}\ символов\)

Теперь определим вес статьи в битах.

\(15*2^{13}\ символов*8\ бит = \ 15*2^{16}бит\)

Варианты ответа представлены в различных единицах измерения, поэтому переведём полученное значение в байты и Кбайты.

\(15*2^{16}бит = \ \frac{15*2^{16}}{2^{3}}\ байт = 15*2^{13}\ байт\)

Ответы 3 и 4 очевидно не подойдут.

\(15*2^{13}\ байт = \ \frac{15*2^{13}}{2^{10}}Кбайт = 15*2^{3}Кбайт = 120\ Кбайт\)

Получаем, что правильный вариант ответа – первый – 120 Кбайт.

Ответ: 1