В компьютере все символы представляются в виде кода из 0 и 1. Для работы с кодированием цифр, букв и других символов, таких как знаки препинания, пробелы, арифметические операции и т.д. были придуманы таблицы кодировок.
Количество символов необходимое нам для набора текста, состоящего из этих специальных символов, цифр и букв английского алфавита было закодировано с помощью таблицы ASCII (American Standard Code for Information Interchange). В этом наборе вес одного символа имеет 7 бит (27 - ближайшая максимальная степень двойки). Но в рамках этой таблицы создание многоязычных документов оказалось очень проблематичным. Эту кодировку пытались расширять, и это получалось, но программное обеспечение должно было следить за кодовыми страницами, и смешивать языки оказалось невозможным.
Позже появилась еще одна кодировка Unicode, которая позволяла закодировать 1 114 112 символов. Стандарт Unicode поддерживается тремя формами:
32-битной (UTF-32) – вес символа – 32 бита
16-битной (UTF-16) – вес символа – 16 бит
8-битной (UTF-8). – вес символа – 8 бит.
Для экзамена нужно только понимать, что 32 битной кодировке Unicode один символ весит 32 бита, а в 16 битной - 16 бит, а в 8 битной - 8 бит.
Также существуют кодировки КОИ, которые широко использовались до 2010 года как русскоязычные кодировки. С распространением кодировок Unicod их использование стало очень редким.
С точки зрения информационного объёма документа подобный принцип кодирования прост – каждый символ несёт в себе определённое количество бит, итоговый информационный объём текста определяется как: Вес одного символа* на количество символов в тексте.
16 бит (вес одного символа) * 52 (количество символов, учитывая пробелы и знаки препинания) = 832 бита.
Единицы измерения информации.
Для работы с объёмом памяти полезно вспомнить перевод единиц измерения количества информации.
Бит представляет наименьшую единицу информации. Однако компьютер имеет дело не с отдельными битами, а с байтами.
Ее выделили и назвали отдельно, потому что она имеет важное значение для компьютерной памяти.
В информатике принято получать новые единицы измерения умножением на 2 в различных степенях — 10 (кило-), 20 (мега-), 30 (гига-) и т.д.
1 байт = 8 бит = 23 бит
1 Кбайт (Килобайт) = 210 байт = 213 бит
1 Мбайт (Мегабайт) = 220 байт = 223 бит
1 Гбайт (Гигабайт) = 230 байт = 233 бит
Рассмотрим примеры заданий экзамена, связанных с определением объёма текстовой информации.
Пример 1.
В одной из кодировок Unicode каждый символ кодируется 16 битами. Ученик написал текст (в нём нет лишних пробелов):
«Ёж, лев, слон, олень, тюлень, носорог, крокодил, аллигатор – дикие животные».
Ученик вычеркнул из списка название одного из животных. Заодно он вычеркнул ставшие лишними запятые и пробелы – два пробела не должны идти подряд.
При этом размер нового предложения в данной кодировке оказался на 16 байт меньше, чем размер исходного предложения. Напишите в ответе вычеркнутое название животного.
Решение.
Для начала определим количество удалённых из текста символов. Для этого поделим 16 байт (то, на сколько уменьшился текст) на вес одного символа – 16 бит.
\(\frac{16\ байт}{16\ бит} = \ \frac{16*8\ бит}{16\ бит} = 8\ символов\)
Так как по условию задания слово удалялось вместе со ставшими лишними запятой и пробелами, то длинна самого слова – 6 символов (при удалении слова уйдут 1 запятая и 1 пробел).
Название животного длинной 6 символов в тексте одно – это «тюлень».
Ответ: ТЮЛЕНЬ
Пример 2.
Статья, набранная на компьютере, содержит 48 страниц, на каждой странице 40 строк, в каждой строке 64 символа. Определите размер статьи в кодировке КОИ-8, в которой каждый символ кодируется 8 битами.
1) 120 Кбайт
2) 240 Кбайт
3) 1920 байт
4) 960 байт
Решение.
Определим количество символов в тексте, для этого умножим количество страниц на количество строк на странице и затем на количество символов строке. Для удобства вычислений будем использовать степени двойки.
\(48*40*64 = {3*2}^{4}*5*2^{3}*2^{6} = \ 15*2^{13}\ символов\)
Теперь определим вес статьи в битах.
\(15*2^{13}\ символов*8\ бит = \ 15*2^{16}бит\)
Варианты ответа представлены в различных единицах измерения, поэтому переведём полученное значение в байты и Кбайты.
\(15*2^{16}бит = \ \frac{15*2^{16}}{2^{3}}\ байт = 15*2^{13}\ байт\)
Ответы 3 и 4 очевидно не подойдут.
\(15*2^{13}\ байт = \ \frac{15*2^{13}}{2^{10}}Кбайт = 15*2^{3}Кбайт = 120\ Кбайт\)
Получаем, что правильный вариант ответа – первый – 120 Кбайт.
Ответ: 1