"Александр Беликов, Л.Блюмберг "The Linux Cyrillic HOWTO"" - читать интересную книгу автора

кодовая страница IBM (названная по имени компьютерной компании, которая
создала эту кодировку для своих персональных компьютеров). Эта кодировка в
старшей половине содержит псевдо - графические символы.
Программное обеспечение, которое не делает никаких предположений о
символах использующих 8-ой бит ASCII данных, называется чисто 8ми битными.
Некоторые более старые программы, разработанные для ASCII с 7 битами в
памяти, а не для чистых 8ми бит могут работать неправильно с вашими
расширенными ASCII данными.
Большинство пакетов, однако, способны работать с расширенным ASCII по
умолчанию, или для этого требуется простая переконфигурация. Подобные,
простейшие программы, требующие какой-либо настройки в этом документе не
рассматриваются.
Вместо этого я сфокусировал свои усилия на более сложных пакетах.
Для информации о том как создавать свое чисто 8ми битное программное
обеспечение смотрите раздел Locale зависимое программирование.
Так как в большинстве систем символы описываются 8ю битами, то нет
никакого способа расширить ASCII еще больше. Способ создания новых
символов в ASCII - это просто создание других расширенных ASCII
реализаций. С помощью этого способа кириллица и была введена в ASCII.
Мы уже упомянули стандарт ISO 8859-5 как тот, в котором определяется
кодировки для кириллицы. Но поскольку (как это часто случается со
стандартами), он был разработан без принятия во внимание реальных
процессов проходящих в СССР (когда это еще было), то единственное, что
было действительно достигнуто с введением этот стандарт, так это только
увеличение беспорядка с кодировками кириллицы. В сообществе Internet очень
популярна кодировка KOI8-R (см. ниже). Кодировка ISO 8859-5 используется
большими компаниями, создающими программное обеспечение с возможностью
обработки кириллической информации. К подобным программам, как правило,
относятся большие базы данных, решения основанные на базе OpenVMS и т.д.
Другие стандарты для кириллицы включают, так называемую, Alt кодировку
и кодовую страницу Microsoft CP1251. Вышеупомянутый Alt стандарт был
разработан нашей "любимой" компанией для МС-ДОС довольно давно. Тогда еще
слыхом не слыхивали про сети из IBM PC и поэтому основное усилие состояло
в том, чтобы сделать этот стандарт настолько насколько это возможно
совместимым с IBM стандартом. Поэтому Alt кодировка - это та самая IBM
кодовая страница, где все специфические европейские символы в верхней
половине были заменены на кириллицу, оставляя псевдографические символы
нетронутыми. Следовательно, это не портило вид программ использующих для
работы текстовые окна и также обеспечило символы кириллицы в них. Alt
стандарт все еще жив и чрезвычайно популярен в среде МС-ДОС.

Microsoft CP1251 кодовая страница - это попытка Microsoft придумать
новый стандарт для кодировки кириллицы в Windows. Насколько я знаю, это не
совместимо с чем либо еще (и не удивительное, три Ха-Ха)
Ну и наконец: KOI-8 стандарт. В отличии от Alt и CP1251 он был
разработан довольно давно для UNIX машин. Так как UNIX значит сеть, то
основной идей при создания KOI-8 стандарта была идея об обеспечении
перемещения кириллической информации по сети.
Еще раз вернемся в далекое прошлое. Обычно все работали только со
стандартным (7ми битным) ASCII. 8ой бит каждого символа указывал на то,