Кодировки или история проблем.

SoftHelp - ваш помощник в мире софта! Обновлен

| | | | | | | | | | |

ГЛОССАРИЙ

A|B|C|D|E|F
G|H|I|J|K|L|M|N
O|P|Q|R|S|T|U
V|W|X|Y|Z|0-9

FEEDBACK

Форум

Гостевая книга

Почтовая форма

Электронная почта

РАССЫЛКА

ПОИСК

СЧЕТЧИКИ

Кодировки или история проблем.

Наверное каждый, кто когда либо пользовался компьютером встречался такой проблемой, когда вместо русских букв у вас на экране видна какая-то белиберда. Я решил найти корни этой проблемы и описать вам, мой читатель, историю кодовых таблиц.

Вообще, в кодовой таблице можно представить 256 символов: различных букв, цифр, управляющих кодов. Первая часть таблицы с 0 по 127 символ стандартизирована американским стандартом ASCII(American Standart Code for Information Interchange) А вот вторая...! Отсюда и начинаются проблемы. Дело в том, что вторая часть таблицы предназначена для размещения национальных алфавитов и других служебных символов. Неопределенная четким стандартом, она различна для разных операционных систем, программ и т.д. Так для русского языка(кириллицы) в DOS, например, используется кодовая страница( так называют вторую часть таблицы ASCII, с 128 по 255 символ) под номером 866, а под Windows уже другая, под номером 1251. Это происходит из-за того, что после пришествия графической оболочки, можно было отказаться от псевдографики, которая занимала чуть ли не половину страницы DOS.

Для русского языка существуют и другие таблицы(подчеркиваю не страницы, а таблицы). Одна из первых появившихся была КОИ-7, аббревиатура "КОИ" расшифровывается как "Код для Обмена Информацией", а цифра семь - количество битов для шифровки одного символа. Семь битов использовалось для того, чтобы сократить время передачи символа, во внутренних сетях все получалось, но при выходе во внешний мир из-за дополнительной информации размер одного символа вырос аж до 3 байт, что не сокращало, а увеличивало время загрузки. Поэтому появляется более совершенная таблица КОИ-8( в англоязычном варианте KOI8-R), здесь, как видно из названия, один символ это один байт. Проблему с передачей удалось решить, но возникла другая, проблема с позиционированием клавиатуры(раскладки). Писать в этой кодировке можно только в специализированных редакторов.

Кому-то видимо все это надоело и он решил(по-настоящему решение было принято на консорциуме фирм) создать кодовую таблицу, где будет не только сам символ, но и инструкция как его надо воспроизводить, то есть каждый символ - два байта. Такая таблица получила название Unicode. Хоть объем информации и увеличился вдвое, зато исчезли проблемы с неправильным воспроизведением.

Ну и несколько слов о программах, которые работают с разными кодировками. В двух известных броузерах, Internet Explorer-е и в Netscape Navigator-е в меню "Вид", в подменю "Кодировки"(в IE "Шрифты") находяться стандартный набор кодировок для того, чтобы находу перекодировать web-страницы. Из почтовых программах могу отметить The Bat, под правый клик мыши выскакивает меню -> подменю "Перекодировка" с набором стандартных кодировок. Самым удобным на мой взгляд текстовым редактором работающим со всеми кодировками является Bred(статью о нем читайте здесь). Еще одна альтернатива стандартному Блокноту, программа Shtirlitz. В ней столько функций, что хватит всем за глаза и за уши, возможность автоматического распознования и функция перекодировки HTML -> TXT и еще много других функции. В общем скачайте не пожалеете.

Меню "Перекодировка" в программе The Bat:
screenshot

Чем бы закончить статью? В общем для жизни без проблем рекомендую такой пакет musthave-утилит: броузер Netscape Navigator, мейлер The Bat, текстовой редактор Bred. Если у вас стоят все эти программы, то проблемы с кодировками практически некогда не возникнут. Все программы описанные в статье можно найти в разделе Программы.

З.Ы. И опять же, статья не претендует на полнейшее описание всех кодовых страниц и кодировок. В ней не были упомянуты, такие кодировки, как UTF-7 и UTF-8(они служат для написания текста на нескольких языках сразу). Но все-таки в ней описаны самые часто используемые кодировки. Удачи!

Автор: Гришман Дата: 11 июня 2000 года

Главная || Новости || Архив || Глоссарий || Советы || C++ Builder || FAQ || Download || Гостевая книга || Форум || Ссылки || About || Пишите нам

Хостинг от uCoz