OpenWiki

Char Encodings

Edit this page (last edited January 20, 2004)
Palm Notes | Recent Changes | Title Index | User Preferences | Random Page | Help
Начнем с базового вопроса: как можно представить национальный язык в компьютере? Важно различать три понятия: алфавит, кодирование алфавита и конкретное представление кодировки.

Дальше слово кодировка будет обозначать и кодировку и представление. Там где из контекста не будет понятно что имеется ввиду слово будет уточняться.

Рассмотрим эволюцию не-unicode представлений кодировок.

Теперь мы можем сформулировать принцип работы Palm OS с текстами: Palm OS поддерживает в качестве текущей мультибайтовую (как частный вид - однобайтовую) кодировку. Начиная с 4 версии, Palm OS упрощает поддержку национальной кодировки.

Чем плохи мультибайтовые кодировки? Тем, что для одновременного использования различных национальных алфавитов требуется внешний механизм переключения кодировок (кодовой страницы). Стандарт Unicode включает кодовую страницу в код каждого символа. Тем самым упрощается совместное использование разных языков, но существенно увеличивается размер кода символа.

UTF-16 использует 2 байта для представления каждого символа. При этом unicode символы большие чем 0x10FFFF (кто бы сказал что там за символы?) в этом представлении использовать нельзя. Подробности здесь ftp://ftp.rfc-editor.org/in-notes/rfc2781.txt .

UTF-8 пользуется тем, что кодовая страница 0 совпадает с ASCII. При этом ASCII-символы представлены одним байтом, а остальные кодируются аналогично мультибайтовым кодировкам (при этом сложность работы с русским приравнена к сложности работы с восточными языками. ха-ха.). Подробности здесь ftp://ftp.rfc-editor.org/in-notes/std/std63.txt .

Чем неудобен unicode для русского языка на пальме?

Palm Notes | Recent Changes | Title Index | User Preferences | Random Page | Help
Edit this page | View other revisions
Print this page | View XML
Find page by browsing, searching or an index
Edited January 20, 2004 (diff)
Valid XHTML 1.0!Valid CSS!