... > Информатика (ЕГЭ) > Кодирование текстовой информации

Кодирование текстовой информации

НАВИГАЦИЯ ПО СТРАНИЦЕ

двоичный код Кодирование Декодирование формулой Хартли
ПОЛНЫЙ ОТВЕТ
БЕЗ ВОДЫ
Без воды — краткий вариант ответа,
легко понять и запомнить

Каждому символу ставится в соответствие уникальный двоичный код. Присвоение символу конкретной последовательности из 0 и 1 — вопрос соглашения, которое фиксируется кодовой таблицей. Согласно алфавитному подходу, все символы кодируются одинаковым количеством бит.

Кодирование — это процесс перевода информации из формы, понятной человеку (текст, изображения, видео), в некоторый код.

1 бит — количество информации, равное информации в одном двоичном разряде. Для кодирования одного символа, как правило, отводится либо 8 бит (1 байт), либо 16 бит (2 байта). Общепринятыми стандартами кодирования символов являются Unicode, ASCII, UTF. В кодировке ASCII на один символ приходится 1 байт, в UNICODE — 2 байта. Современные кодовые таблицы содержат буквы латинского алфавита, национальных алфавитов, цифры, знаки арифметических операций, знаки препинания, управляющие и математические символы, псевдографику. В процессе открытия файла текстовый редактор считывает кодировку каждого символа, из-за чего происходит декодирование, и информация выводится для просмотра и дальнейшего редактирования пользователем.

Декодирование — это процесс перевода информации из кода в форму, понятную человеку.

Для измерения количества информации базовой единицей измерения является 1 бит. Далее можно пользоваться следующими соотношениями.

Название

Условное обозначение

Соотношение с другими единицами

Килобит

Кбит

1 Кбит = 1024 бит = 210 бит

Мегабит

Мбит

1 Мбит = 1024 Кбит = 220 бит

Гигабит

Гбит

1 Гбит = 1024 Мбит = 230 бит

Байт

Байт

1 байт = 23 бит

Килобайт

Кбайт (Кб)

1 Кбайт = 1024 байт = 210 байт = 213 бит

Мегабайт

Мбайт (Мб)

1 Мбайт = 1024 Кбайт=220 байт = 223 бит

Гигабайт

Гбайт (Гб)

1 Гбайт = 1024 Мбайт = 230 байт = 233 бит

Для того чтобы вычислить количество бит, необходимое для кодирования некоторого текста, пользуются следующей формулой:

 , где I — количество информации, K — количество символов в тексте, i — информационный вес символа (количество бит, которым кодируется символ сообщения).

Связь между количеством возможных событий N и количеством информации i выражается формулой Хартли.

Определим информационную емкость буквы английского алфавита. Напомним, в английском алфавите 26 букв. Результат округлим до целого числа бит.

В нашем случае N = 26, т. е. 26=2i, следовательно, 4<i<5. Таким образом, количество информации, которое несет одна буква латинского алфавита, составляет 5 бит.

Теперь определим объем информации, который содержит сообщение «Laptop». Сообщение записано с помощью английского алфавита, в котором 26 символов. 

.

Таким образом, информационный вес сообщения «Laptop» составляет 30 бит.

Теперь рассчитаем информационный объем текста

Предположим, что книга Майкла Доусона по программированию на Python содержит 416 страниц, известно, что на каждой странице 38 строк, в каждой строке 76 символов. Если будем использовать кодовую таблицу ASCII, тогда 1 символу ставится в соответствие 1 байт. Тогда объем информации книги «Программируем на Python» составляет 416⋅38⋅76⋅1=1 201 408 байт = 1 173,25 Мб. 

Появление компьютеров обусловило необходимость кодирования различных видов информации. Самый распространенный вид представления информации — двоичное кодирование. Именно обработка текстовой информации составляет основную долю информации, с которой приходится работать цифровой технике.