PalmOS Wiki

Начнем с базового вопроса: как можно представить национальный язык в компьютере? Важно различать три понятия: алфавит, кодирование алфавита и конкретное представление кодировки.

Алфавит - это собрание букв языка. С русским языком все понятно - а-я и А-Я.
Кодирование алфавита. В компьютерах все представляется числами. Естественное желание - представить набор символов, которые можно показывать, числами - кодами символов. Самая популярная кодировка - ASCII. В ASCII представлены цифры, латинские буквы и символы пунктуации. Все вместе укладывается в диапазон кодов 0-127. Все прочие буквенные языки (в которых буква приблизительно соответствует звуку, а не слогу или слову) обычно отображали свои символы в диапазон 128-255. В 90-х годах был предложен мировой стандарт unicode, где каждому языку был присвоен диапазон (кодовая страница) в рамках которой располагались буквы. На всех был выделен достаточно большой диапазон чтобы запихнуть в него все.
Представление кодировки. Желание сократить размер, выделяемый под текст привело к хитростям в представлении символов в компьютере. Порядковые номера большинства символов unicode попадают в интервал 0-65535. Для представления таких чисел достаточно двух байт. Логичным способом представления такой строки является последовательность двухбайтовых чисел, содержащих коды символов. Такое представление называется UTF-16 и часто путается с собственно unicode, что неправильно: UTF-16 всего лишь одно из возможных представлений юникода, не позволяющее отобразить все символы стандарта. Для английского языка UTF-16 будет похож на ASCII текст, в котором каждый второй символ будет нулевым. Для экономии был предложено представление UTF-8, в котором ASCII символы представляются 1 байтом, а все национальные алфавиты - двумя или тремя байтами. Таким образом разные представления могут соответствовать одной кодировке. Представление кодировки важно для понимания какая последовательность символов соответствует данной последовательности байт.

Дальше слово кодировка будет обозначать и кодировку и представление. Там где из контекста не будет понятно что имеется ввиду слово будет уточняться.

Рассмотрим эволюцию не-unicode представлений кодировок.

ASCII кодировка. Символы уложились в диапазон 0-127 (7 бит). Восьмой бит планировался как бит четности.
Бит четности скоро перестал быть важен и стал использоваться для национальных алфавитов. Европейские страны засунули в диапазон 128-255 свои символы с акцентами (ISO Latin charset, она же Windows-1252), Россия (СССР) использовала этот же диапазон для кириллицы (традиционно было предложено несколько несовместимых кодировок: ГОСТ, альтернативная 866, KOI-8R, а победила, естественно, кодировка от Microsoft Windows-1251).
Страны, которым не хватало 128 дополнительных символов (азиатские страны со слоговым и иероглифическим письмом), придумали мультибайтовую кодировку. В отличии от предыдущих кодировок, где было соответствие один символ - один байт, мультибайтовые кодировки могли кодировать символ в нескольких байтах. Обычные символы из ASCII кодировались одним символом, а некоторые коды из старшей половины использовались как стартовые символы для двух-трех байтовых символов. До мультибайтовых кодировок все было просто: 5 байт - 5 символов. Теперь для подсчета числа символов нужно было просканировать строку. Понятно, что ожидать от европейского (и русского) программиста корректной работы с мультибайтовыми символами практически невозможно. Разве что по случайности.
Как можно правильно распознать поток байт как текст? Было введено понятие кодовой страницы, codepage. Текущая кодовая страница указывала на способ распознавания символов. Так, Словоед, используя переключение кодовой страницы в Пилоке, способен выводить и русские буквы и немецкие умляуты.

Теперь мы можем сформулировать принцип работы PalmOS с текстами: PalmOS поддерживает в качестве текущей мультибайтовую (как частный вид - однобайтовую) кодировку. Начиная с 4 версии, PalmOS упрощает поддержку национальной кодировки.

Чем плохи мультибайтовые кодировки? Тем, что для одновременного использования различных национальных алфавитов требуется внешний механизм переключения кодировок (кодовой страницы). Стандарт Unicode включает кодовую страницу в код каждого символа. Тем самым упрощается совместное использование разных языков, но существенно увеличивается размер кода символа.

UTF-16 использует 2 байта для представления каждого символа. При этом unicode символы большие чем 0x10FFFF (кто бы сказал что там за символы?) в этом представлении использовать нельзя. Подробности здесь ftp://ftp.rfc-editor.org/in-notes/rfc2781.txt .

UTF-8 пользуется тем, что кодовая страница 0 совпадает с ASCII. При этом ASCII-символы представлены одним байтом, а остальные кодируются аналогично мультибайтовым кодировкам (при этом сложность работы с русским приравнена к сложности работы с восточными языками. ха-ха.). Подробности здесь ftp://ftp.rfc-editor.org/in-notes/std/std63.txt .

Чем неудобен unicode для русского языка на пальме?

Во-первых в PalmOS существует только одна функция, которая понимает юникод и преобразовывает его в мультибайтовую родную кодировку. Мало довода?
Во-вторых русификатор должен правильно настроить функции преобразования. На голой машине эти преобразования будут заведомо неверными.
В-третьих редкая программа, которая обрабатывает поток текста озабачивается настраиваемым списком понимаемых кодировок.
В-четвертых вменяемый европейский программист просто будет рассматривать UTF-8 как ASCII, а в UTF-16 будет просто выкидывать старший байт. Их можно понять .