Кодирование текстовой информации
НАВИГАЦИЯ ПО СТРАНИЦЕ
Каждому символу ставится в соответствие уникальный
1 бит — количество информации, равное информации в одном двоичном разряде. Для кодирования одного символа, как правило, отводится либо 8 бит (1 байт), либо 16 бит (2 байта). Общепринятыми стандартами кодирования символов являются Unicode, ASCII, UTF. В кодировке ASCII на один символ приходится 1 байт, в UNICODE — 2 байта. Современные кодовые таблицы содержат буквы латинского алфавита, национальных алфавитов, цифры, знаки арифметических операций, знаки препинания, управляющие и математические символы, псевдографику. В процессе открытия файла текстовый редактор считывает кодировку каждого символа, из-за чего происходит декодирование, и информация выводится для просмотра и дальнейшего редактирования пользователем.
Для измерения количества информации базовой единицей измерения является 1 бит. Далее можно пользоваться следующими соотношениями.
Название | Условное обозначение | Соотношение с другими единицами |
---|---|---|
Килобит | Кбит | 1 Кбит = 1024 бит = 210 бит |
Мегабит | Мбит | 1 Мбит = 1024 Кбит = 220 бит |
Гигабит | Гбит | 1 Гбит = 1024 Мбит = 230 бит |
Байт | Байт | 1 байт = 23 бит |
Килобайт | Кбайт (Кб) | 1 Кбайт = 1024 байт = 210 байт = 213 бит |
Мегабайт | Мбайт (Мб) | 1 Мбайт = 1024 Кбайт=220 байт = 223 бит |
Гигабайт | Гбайт (Гб) | 1 Гбайт = 1024 Мбайт = 230 байт = 233 бит |
Для того чтобы вычислить количество бит, необходимое для кодирования некоторого текста, пользуются следующей формулой:
, где I — количество информации, K — количество символов в тексте, i — информационный вес символа (количество бит, которым кодируется символ сообщения).
Связь между количеством возможных событий N и количеством информации i выражается
Определим информационную емкость буквы английского алфавита. Напомним, в английском алфавите 26 букв. Результат округлим до целого числа бит.
В нашем случае N = 26, т. е. 26=2i, следовательно, 4<i<5. Таким образом, количество информации, которое несет одна буква латинского алфавита, составляет 5 бит.
Теперь определим объем информации, который содержит сообщение «Laptop». Сообщение записано с помощью английского алфавита, в котором 26 символов.
.
Таким образом, информационный вес сообщения «Laptop» составляет 30 бит.
Теперь рассчитаем информационный объем текста
Предположим, что книга Майкла Доусона по программированию на Python содержит 416 страниц, известно, что на каждой странице 38 строк, в каждой строке 76 символов. Если будем использовать кодовую таблицу ASCII, тогда 1 символу ставится в соответствие 1 байт. Тогда объем информации книги «Программируем на Python» составляет 416⋅38⋅76⋅1=1 201 408 байт = 1 173,25 Мб.
Появление компьютеров обусловило необходимость кодирования различных видов информации. Самый распространенный вид представления информации — двоичное кодирование. Именно обработка текстовой информации составляет основную долю информации, с которой приходится работать цифровой технике.