About: CESU-8

An Entity of Type: Format106636806, from Named Graph: http://dbpedia.org, within Data Space: dbpedia.org

The Compatibility Encoding Scheme for UTF-16: 8-Bit (CESU-8) is a variant of UTF-8 that is described in Unicode Technical Report #26. A Unicode code point from the Basic Multilingual Plane (BMP), i.e. a code point in the range U+0000 to U+FFFF, is encoded in the same way as in UTF-8. A Unicode supplementary character, i.e. a code point in the range U+10000 to U+10FFFF, is first represented as a surrogate pair, like in UTF-16, and then each surrogate code point is encoded in UTF-8. Therefore, CESU-8 needs six bytes (3 bytes per surrogate) for each Unicode supplementary character while UTF-8 needs only four. Though not specified in the technical report, unpaired surrogates are also encoded as 3 bytes each, and CESU-8 is exactly the same as applying an older UCS-2 to UTF-8 converter to UTF-16

Property Value
  • CESU-8 (zkratka anglického Compatibility Encoding Scheme for UTF-16: 8-bit, Schéma pro kompatibilní kódování UTF-16, 8bitové) je způsob kódování znaků Unicode, který je téměř shodný s UTF-8, ale liší se způsobem práce se znaky od U+10000 výše. Je určen výhradně pro vnitřní použití v systémech, které nejsou schopny dobře pracovat s úplnou znakovou sadou Unicode při použití standardních kódování, není zamýšlen jako formát pro obecnou výměnu dat. Při kódování do CESU-8 se vstupní text nejprve zakóduje do UTF-16 (tj. znaky mimo Basic Multilingual Plane se zapíší pomocí ), výsledek se poté zakóduje pomocí UTF-8. Znamená to, že kódování znaků BMP (všechny znaky od U+0000 do U+FFFF) je shodné v UTF-8 i CESU-8. Znaky, které jsou v UTF-8 kódovány do čtyř bajtů, jsou však v CESU-8 kódovány pomocí šestibajtové posloupnosti. CESU-8 je obdobné tzv. Modified UTF-8, které se používá v Javě, tam se ovšem navíc používá speciální kódování znaku U+0000. V praxi se kódování CESU-8 používá při práci s některými databázemi (Oracle, MySQL), které neumějí pracovat s UTF-8 řetězci reprezentujícími znaky mimo BMP, ale nic nenamítají proti (z hlediska UTF-8 neplatnému) kódování těchto znaků prostřednictvím surrogate pairs, tzn. CESU-8. V databázovém systému Oracle je od verze 8.0 dostupná znaková sada pojmenovaná UTF8, která však ve skutečnosti reprezentuje právě CESU-8. Až ve verzi 9.0 přibyla podpora „skutečného“ UTF-8, pod názvem AL32UTF8. Databázový systém MySQL od své verze 4.1 podporuje znakovou sadu utf8, ale jen pro znaky BMP. Znaky mimo BMP nelze do databáze uložit v kódování UTF-8; databáze však nebrání uložení takových znaků pomocí CESU-8, byť tomuto kódování nerozumí a některé funkce u těchto znaků tedy nefungují správně (každý takový znak je např. počítán za dva znaky). Plná podpora UTF-8 (a obecně doplňkových znaků Unicode) se plánuje do připravované verze 5.5. (cs)
  • CESU-8 (kurz für Compatibility Encoding Scheme for UTF-16: 8-Bit) ist eine Variante von UTF-8, die im Unicode Technical Report #26 beschrieben wird. Der Codepoint wird zunächst in UTF-16 ausgedrückt, dann wird das Ergebnis in UTF-8 rekodiert, als wäre es UCS-2. (de)
  • The Compatibility Encoding Scheme for UTF-16: 8-Bit (CESU-8) is a variant of UTF-8 that is described in Unicode Technical Report #26. A Unicode code point from the Basic Multilingual Plane (BMP), i.e. a code point in the range U+0000 to U+FFFF, is encoded in the same way as in UTF-8. A Unicode supplementary character, i.e. a code point in the range U+10000 to U+10FFFF, is first represented as a surrogate pair, like in UTF-16, and then each surrogate code point is encoded in UTF-8. Therefore, CESU-8 needs six bytes (3 bytes per surrogate) for each Unicode supplementary character while UTF-8 needs only four. Though not specified in the technical report, unpaired surrogates are also encoded as 3 bytes each, and CESU-8 is exactly the same as applying an older UCS-2 to UTF-8 converter to UTF-16 data. The encoding of Unicode non-BMP characters works out to 11101101 1010yyyy 10xxxxxx 11101101 1011xxxx 10xxxxxx (yyyy represents the top five bits of the character minus one). The byte values 0xF0—0xF4 will not appear in CESU-8, as they start the 4-byte encodings used by UTF-8. CESU-8 is not an official part of the Unicode Standard, because Unicode Technical Reports are informative documents only. It should be used exclusively for internal processing and never for external data exchange. Supporting CESU-8 in HTML documents is prohibited by the W3C and WHATWG HTML standards, as it would present a cross-site scripting vulnerability. Java's Modified UTF-8 is CESU-8 with a special overlong encoding of the NUL character (U+0000) as the two-byte sequence C0 80. The Oracle database uses CESU-8 for its "UTF8" character set. Standard UTF-8 can be obtained using the character set "AL32UTF8" (since Oracle version 9.0). (en)
  • Le CESU-8 (Compatibility Encoding Scheme for UTF-16: 8-Bit) est un codage de caractères variante d'UTF-8 décrit dans le document Unicode Technical Report #26 publié par le consortium Unicode. C'est un encodage d'Unicode sur 8 bits non normalisé, destiné à un usage interne et non destiné à, ni recommandé pour, des communications. Certains considèrent que sa place est davantage parmi les Technical Notes de l'organisation que dans les rapports techniques. Le but principal de CESU-8 est de maintenir la même collation binaire qu'UTF-16 tout en gardant un codage 8 bits. Cependant, comme aucun traitement du caractère NUL n'est appliqué, la chaîne résultante ne peut être traitée comme une chaine terminée par un caractère NUL si la chaine d'origine contient le caractère U+0000. (fr)
  • UTF-16的八位元相容編碼方案(英語:Compatibility Encoding Scheme for UTF-16: 8-Bit),簡稱 CESU-8 ,是統一碼技术报告 #26 中描述UTF-8的变体。 CESU-8 的設計,是為了能在八位元的計算環境中,提供 UTF-16 的定序。因此,報告中也明確指出,只建議用在那些需要 UTF-16 定序,不預期且不建議用於外部數據交換。 CESU-8 有以下特點: * 基本多语言平面中的字符編碼會與 UTF-8 相同,只有 增補字符會不同。 * 只有六個字節形式的增符字符是合規的,UTF-8 中的四字節形式是不合規的。 * 以 CESU-8 編碼後的字節串列以二進位方式定序,會與 UTF-16 編碼過的字節串列以二進位定序,其結果是一樣。 基本多语言平面中的字符碼位(即 U+0000 到 U+FFFF 范围内的碼位),其编码方式与 UTF-8 相同。 增補字符(即 U+10000 到 U+10FFFF 范围内的碼位),則先以同UTF-16的方式轉为代理对,然后以 UTF-8 的方式將代理對中的每個代碼进行编码。因此,对于每个統一碼增補字符,CESU-8 需要六个字节(每个代理项 3 个字节),而 UTF-8 只需要四个字节。虽然技术报告中没有具体说明,但未配对的代理項也會编码成为 3 个字节。非基本多文種平面的字符會被编码成11101101 1010yyyy 10xxxxxx 11101101 1011xxxx 10xxxxxx (yyyy 表示字符的前五位减一)。字节值 0xF0 不会出现在 CESU-8 中,因为它开始了 UTF-8 使用的 4 字节编码。 W3C 和WHATWG HTML標準禁止在HTML文檔中支援 CESU-8,因为这会導致跨網站脚本漏洞。 Java 的UTF-8修改版是 CESU-8,並將 NUL 字符 (U+0000) 的特殊超长编码,作为两字节序列C0 80 。 Oracle 数据库使用 CESU-8 作为其“UTF8”字符集。若要使用標準 UTF-8 ,自 Oracle 9.0 版起,可以使用字符集“AL32UTF8”。 CESU-8 是IANA註冊的字符集。 https://www.iana.org/assignments/character-sets/character-sets.xhtml#Toby_Phipps (页面存档备份,存于互联网档案馆) (zh)
  • 2232502 (xsd:integer)
  • 4978 (xsd:nonNegativeInteger)
  • 1083247588 (xsd:integer)
  • CESU-8 (kurz für Compatibility Encoding Scheme for UTF-16: 8-Bit) ist eine Variante von UTF-8, die im Unicode Technical Report #26 beschrieben wird. Der Codepoint wird zunächst in UTF-16 ausgedrückt, dann wird das Ergebnis in UTF-8 rekodiert, als wäre es UCS-2. (de)
  • CESU-8 (zkratka anglického Compatibility Encoding Scheme for UTF-16: 8-bit, Schéma pro kompatibilní kódování UTF-16, 8bitové) je způsob kódování znaků Unicode, který je téměř shodný s UTF-8, ale liší se způsobem práce se znaky od U+10000 výše. Je určen výhradně pro vnitřní použití v systémech, které nejsou schopny dobře pracovat s úplnou znakovou sadou Unicode při použití standardních kódování, není zamýšlen jako formát pro obecnou výměnu dat. CESU-8 je obdobné tzv. Modified UTF-8, které se používá v Javě, tam se ovšem navíc používá speciální kódování znaku U+0000. (cs)
  • The Compatibility Encoding Scheme for UTF-16: 8-Bit (CESU-8) is a variant of UTF-8 that is described in Unicode Technical Report #26. A Unicode code point from the Basic Multilingual Plane (BMP), i.e. a code point in the range U+0000 to U+FFFF, is encoded in the same way as in UTF-8. A Unicode supplementary character, i.e. a code point in the range U+10000 to U+10FFFF, is first represented as a surrogate pair, like in UTF-16, and then each surrogate code point is encoded in UTF-8. Therefore, CESU-8 needs six bytes (3 bytes per surrogate) for each Unicode supplementary character while UTF-8 needs only four. Though not specified in the technical report, unpaired surrogates are also encoded as 3 bytes each, and CESU-8 is exactly the same as applying an older UCS-2 to UTF-8 converter to UTF-16 (en)
  • Le CESU-8 (Compatibility Encoding Scheme for UTF-16: 8-Bit) est un codage de caractères variante d'UTF-8 décrit dans le document Unicode Technical Report #26 publié par le consortium Unicode. C'est un encodage d'Unicode sur 8 bits non normalisé, destiné à un usage interne et non destiné à, ni recommandé pour, des communications. Certains considèrent que sa place est davantage parmi les Technical Notes de l'organisation que dans les rapports techniques. (fr)
  • UTF-16的八位元相容編碼方案(英語:Compatibility Encoding Scheme for UTF-16: 8-Bit),簡稱 CESU-8 ,是統一碼技术报告 #26 中描述UTF-8的变体。 CESU-8 的設計,是為了能在八位元的計算環境中,提供 UTF-16 的定序。因此,報告中也明確指出,只建議用在那些需要 UTF-16 定序,不預期且不建議用於外部數據交換。 CESU-8 有以下特點: * 基本多语言平面中的字符編碼會與 UTF-8 相同,只有 增補字符會不同。 * 只有六個字節形式的增符字符是合規的,UTF-8 中的四字節形式是不合規的。 * 以 CESU-8 編碼後的字節串列以二進位方式定序,會與 UTF-16 編碼過的字節串列以二進位定序,其結果是一樣。 W3C 和WHATWG HTML標準禁止在HTML文檔中支援 CESU-8,因为这会導致跨網站脚本漏洞。 Java 的UTF-8修改版是 CESU-8,並將 NUL 字符 (U+0000) 的特殊超长编码,作为两字节序列C0 80 。 Oracle 数据库使用 CESU-8 作为其“UTF8”字符集。若要使用標準 UTF-8 ,自 Oracle 9.0 版起,可以使用字符集“AL32UTF8”。 CESU-8 是IANA註冊的字符集。 (zh)
  • CESU-8 (cs)
  • CESU-8 (de)
  • CESU-8 (en)
  • CESU-8 (fr)
  • UTF-16的八位元相容編碼方案 (zh)
is dbo:wikiPageRedirects of
is dbo:wikiPageWikiLink of
is foaf:primaryTopic of
Powered by OpenLink Virtuoso    This material is Open Knowledge     W3C Semantic Web Technology     This material is Open Knowledge    Valid XHTML + RDFa
This content was extracted from Wikipedia and is licensed under the Creative Commons Attribution-ShareAlike 3.0 Unported License