UTF-8 (8-bit UCS/Unicode Transformation Format) is a variable-length character encoding for Unicode. It is able to represent any character in the Unicode standard, yet the initial encoding of byte codes and character assignments for UTF-8 is backwards compatible with ASCII. For these reasons, it is steadily becoming the preferred encoding for e-mail, web pages, and other places where characters are stored or streamed.

PropertyValue
p:abstract
  • UTF-8 (8-bit UCS/Unicode Transformation Format) is a variable-length character encoding for Unicode. It is able to represent any character in the Unicode standard, yet the initial encoding of byte codes and character assignments for UTF-8 is backwards compatible with ASCII. For these reasons, it is steadily becoming the preferred encoding for e-mail, web pages, and other places where characters are stored or streamed. UTF-8 encodes each character in one to four octets (8-bit bytes): #One byte is needed to encode the 128 US-ASCII characters (Unicode range to U+007F). #Two bytes are needed for Latin letters with diacritics and for characters from Greek, Cyrillic, Armenian, Hebrew, Arabic, Syriac and Thaana alphabets (Unicode range U+0080 to U+07FF). #Three bytes are needed for the rest of the Basic Multilingual Plane (which contains virtually all characters in common use). #Four bytes are needed for characters in the other planes of Unicode, which are rarely used in practice. Four bytes may seem like a lot for one character (code point). However, code points outside the Basic Multilingual Plane are generally very rare. Furthermore, UTF-16 (the main alternative to UTF-8) also needs four bytes for these code points. Whether UTF-8 or UTF-16 is more efficient depends on the range of code points being used. However, the differences between different encoding schemes can become negligible with the use of traditional compression systems like DEFLATE. For short items of text where traditional algorithms do not perform well and size is important, the Standard Compression Scheme for Unicode could be considered instead. The Internet Engineering Task Force (IETF) requires all Internet protocols to identify the encoding used for character data, and the supported character encodings must include UTF-8. The Internet Mail Consortium (IMC) recommends that all email programs be able to display and create mail using UTF-8. (en)
  • zabor UTF-8 (8-bit Unicode Transformation Format) es una norma de transmisión de longitud variable para caracteres codificados utilizando Unicode, creada por Rob Pike y Ken Thompson. UTF-8 usa grupos de bytes para representar el estándar de Unicode para los alfabetos de muchos de los lenguajes del mundo. Es especialmente útil para la transmisión sobre sistemas de correo de 8 bits. Usa de 1 a 4 bytes por carácter, dependiendo del símbolo de Unicode. Por ejemplo, se necesita un solo byte en UTF-8 para codificar los 128 caracteres US-ASCII en el rango U+0000 a U+007F de Unicode. Aunque podría parecer ineficiente representar caracteres Unicode con hasta 4 bytes, UTF-8 permite a sistemas antiguos transmitir caracteres de este superconjunto de ASCII. Además, sigue siendo posible utilizar compresión de datos independientemente del uso de UTF-8. El IETF requiere que todos los protocolos de Internet indiquen qué codificación utilizan para los textos y que UTF-8 sea una de las codificaciones contempladas. (es)
  • UTF-8 (Abk. für 8-bit Unicode Transformation Format) ist die am weitesten verbreitete Kodierung für Unicode-Zeichen. Dabei wird jedem Unicode-Zeichen eine speziell kodierte Bytekette von variabler Länge zugeordnet. UTF-8 unterstützt bis zu vier Byte, auf die sich wie bei allen UTF-Formaten alle Unicode-Zeichen abbilden lassen. UTF-8 hat eine zentrale Bedeutung als globale Zeichenkodierung im Internet. Die Internet Engineering Task Force verlangt von allen neuen Internetkommunikationsprotokollen, dass die Zeichenkodierung deklariert wird und dass UTF-8 eine der unterstützten Kodierungen ist. Das Internet Mail Consortium (IMC) empfiehlt, dass alle E-Mail-Programme UTF-8 darstellen und senden können. (vgl. auch BOM). 2008 wird diese Empfehlung allerdings immer noch nicht global befolgt. Auch bei dem in Webbrowsern verwendeten HTML setzt sich UTF-8 zur Darstellung von sprachspezifischen Zeichen zunehmend durch und ersetzt die vorher benutzten HTML-Sonderzeichen. (de)
  • UTF-8 (UCS transformation format 8 bits) est un format de codage de caractères défini pour les caractères Unicode (UCS). Chaque caractère est codé sur une suite d'un à quatre octets. UTF-8 a été conçu pour être compatible avec certains logiciels originellement prévus pour traiter des caractères d'un seul octet. UTF-8 est standardisé dans la RFC 3629 (UTF-8, a transformation format of ISO 10646). Le codage était aussi défini dans le rapport technique 17 de la norme Unicode. Il fait maintenant partie intégrante de la norme dans son chapitre 3 Conformance et est également approuvé par l’Organisation internationale de normalisation (ISO), l’Internet Engineering Task Force (IETF) et la plupart des organismes de normalisation nationaux. L’IETF requiert qu’UTF-8 soit pris en charge par les protocoles de communication d’Internet échangeant du texte. (fr)
  • UTF-8 (Unicode Transformation Format, 8 bit) è una codifica dei caratteri Unicode in sequenze di lunghezza variabile di byte, creata da Rob Pike e Ken Thompson. UTF-8 usa gruppi di byte per rappresentare i caratteri Unicode, ed è particolarmente utile per il trasferimento tramite sistemi di posta elettronica a 8-bit. UTF-8 usa da 1 a 4 byte per rappresentare un carattere Unicode. Per esempio un solo byte è necessario per rappresentare i 128 caratteri dell'alfabeto ASCII, corrispondenti alle posizioni Unicode da U+0000 a U+007F. Quattro byte possono sembrare troppi per un solo carattere; tuttavia questo è richiesto solo per i caratteri che stanno fuori dal Basic Multilingual Plane, generalmente molto rari. Inoltre anche UTF-16 (la principale alternativa a UTF-8) richiede quattro byte per questi caratteri. Quale sia più efficiente, UTF-8 o UTF-16, dipende dall'intervallo di caratteri utilizzati, e l'uso di algoritmi di compressione tradizionali riduce in maniera significativa la differenza tra le due codifiche. Per brevi brani di testo, su cui gli algoritmi di compressione tradizionali non sono efficienti e una ridotta occupazione di memoria è importante si potrebbe utilizzare lo Schema di compressione standard per Unicode. La IETF (Internet Engineering Task Force) richiede che tutti i protocolli Internet identifichino la codifica dei caratteri utilizzata, e che siano in grado di utilizzare almeno UTF-8. (it)
  • UTF-8(旧UTF-2)はUCS(ISO/IEC 10646)、Unicodeで使える符号化方式。 正式名称は、ISO/IEC 10646では'UCS Transformation Format 8'、Unicodeでは'Unicode Translation Format-8'という。 両者はUCS-4とUnicodeのコード重複範囲で互換性がある。 2バイト目以降に'/'などのコードが現れないように工夫されていることから、'UTF-FSS'(File System Safe)ともいわれる。 RFCにも仕様がある。 データ交換方式、ファイル形式としては一般的にUTF-8が使われる傾向がある。 Linux等では、OSの標準文字エンコードとして使用される例も増えている。 当初は、Plan 9で用いるエンコードとしてベル研究所で考案された。 (ja)
  • UTF-8 (8-bit Unicode Transformation Format) is een manier om Unicode/ISO 10646-tekens op te slaan als een stroom van bytes, een zogenaamde tekencodering. Het alternatief heet UTF-16. UTF-8 is een tekencodering met een variabele lengte: niet elk teken gebruikt evenveel bytes. Afhankelijk van het teken worden tussen 1 en 4 bytes gebruikt. Voor het vastleggen van elk van de 128 ASCII-tekens is slechts één byte nodig. Hoewel het niet efficiënt lijkt om Unicodetekens in 4 bytes te moeten coderen, is het zo dat UTF-8 eenvoudig in gebruik is omdat de codering van een tekst met uitsluitend ASCII-tekens in ASCII en UTF-8 gelijk is. (nl)
  • UTF-8 (8-bit Unicode Transformation Format) er et Unicode-tegnsett med variabel tegnlengde oppfunnet av Ken Thompson og Rob Pike. Unicode er en nummerert samling av tegn, og UTF-8 representerer disse numrene med mellom en og fire byte, og er konstruert slik at de første 128 tegnene (U+0000 til U+007F), samsvarer nøyaktig med US-ASCII-standarden. UTF-8 er dermed bakoverkompatibelt med systemer som støtter ASCII-tekst. (no)
  • UTF-8 - system kodowania Unicodu. (pl)
  • UTF-8 (8-bit Unicode Transformation Format) é um tipo de codificação Unicode de comprimento variável criado por Ken Thompson e Rob Pike. Pode representar qualquer caracter universal padrão do Unicode, sendo também compatível com o ASCII. Por esta razão, está lentamente a ser adoptado como tipo de codificação padrão para email, páginas web, e outros locais onde os caracteres são armazenados. UTF-8 usa de um a quatro bytes (estritamente octetos) por caracter, dependendo do símbolo Unicode que representa. É necessário apenas um byte para codificar os 128 caracteres ASCII (Unicode U+0000 a U+007F). São necessários dois bytes para caracteres Latinos com Diacríticos. São também usados dois bytes para representar caracteres dos alfabetos Grego, Cirílico, Armênio, Hebraico, Sírio e Thaana (Unicode U+0080 a U+07FF). São necessários três bytes para o resto do Plano Multilingual Básico (que contém praticamente todos os caracteres comuns utilizados). Existem ainda outros caracteres que necessitam de quatro bytes. Quatro bytes pode parecer muito para um caracter ("code point"), mas muito raramente são utilizados. Além disso, UTF-16 (a principal alternativa ao UTF-8) necessita também de quatro bytes para estes "code points". Qual dos dois é mais eficiente (UTF-8 ou UTF-16) depende da variedade de "code points" usados. Contudo, as diferenças entre os vários tipos de codificação tornam-se irrelevantes com o uso de sistemas de compressão como o DEFLATE. Para textos curtos onde os tradicionais algoritmos nao funcionam bem e onde é necessário ter o tamanho em consideração, é geralmente usado o Esquema Padrão de Compressão para Unicode (Standard Compression Scheme for Unicode). O "Internet Engineering Task Force" (IETF) requer que todos os protocolos utilizados na Internet suportem, pelo menos, o UTF-8. O "Internet Mail Consortium" (IMC) [http://www.imc.org/mail-i18n.html] recomenda que todos os clientes de email consigam ler e criar mails usando o UTF-8. (pt)
  • UTF-8 (от — формат преобразования Юникода) — в настоящее время распространённая кодировка, реализующая представление Юникода, совместимое с 8-битным кодированием текста. Текст, состоящий только из символов с номером меньше 128, при записи в UTF-8 превращается в обычный текст ASCII. И наоборот, в тексте UTF-8 любой байт со значением меньше 128 изображает символ ASCII с тем же кодом. Остальные символы Юникода изображаются последовательностями длиной от 2 до 6 байтов (реально только до 4 байт, поскольку использование кодов больше 221 не планируется), в которых первый байт всегда имеет вид 11xxxxxx, а остальные — 10xxxxxx. Проще говоря, в формате UTF-8 символы латинского алфавита, знаки препинания и управляющие символы ASCII записываются кодами US-ASCII, a все остальные символы кодируются при помощи нескольких октетов со старшим битом 1. Это приводит к двум эффектам. * Даже если программа не распознаёт Юникод, то латинские буквы, арабские цифры и знаки препинания будут отображаться правильно. * В случае, если латинские буквы и простейшие знаки препинания (включая пробел) занимают существенный объём текста (например, в европейских языках, включая основанные на кириллице), UTF-8 даёт выигрыш по объёму по сравнению с UTF-16. * На первый взгляд может показаться, что UTF-16 удобнее, так как в ней большинство символов кодируется ровно двумя байтами. Однако это сводится на нет необходимостью поддержки суррогатных пар, о которых часто забывают при использовании UTF-16, реализовывая лишь поддержку символов UCS-2.. Сейчас стандарт UTF-8 официально закреплён в документах RFC 3629 и ISO/IEC 10646 Annex D. (ru)
  • UTF-8 (åtta-bitars Unicode transformationsformat) är en teckenkodning (längdvarierande) som används för att representera text kodad i Unicode, som en sekvens av bytes, till exempel i textfiler. Unicode använder upp till 21 bitar, vilket inte får plats i en byte. UTF-8 är konstruerat så att tecken som tillhör ASCII-tabellen (som täcker A-Z, a-z, 0-9 samt vanligt förekommande interpunktion) kommer att kodas på samma sätt i både ASCII och UTF-8, och inga bytes som inte är ASCII-tecken kan misstolkas som ASCII-tecken. Det gör UTF-8 lämpligt för tillämplingar där man eventuellt tolkar vissa följder av ASCII-tecken speciellt (som nyckelord på något sätt), medan resten av texten bara kopieras vidare oförändrad - till exempel för webbsidor. HTML-koder blir oförändrade mot en en-bytes kodning, men man kan ändå få stöd för alla världens språk. Wikipedias sidor är kodade i UTF-8. I program som inte uppdaterats för Unicode, eller av någon anledning tolkar byteströmmen som något annat än UTF-8, kan visa fel tecken. Ett program som felaktigt tolkar byte-strömmen som om den vore kodad i Latin-1 (ISO/IEC 8859-1), kan om texten "knäckebröd av råg" är kodad i UTF-8 visa den som "knäckebröd av rÃ¥g". Eftersom UTF-8 kodar på ett visst sätt (första byten för ett tecken har C0-F7 (hex), övriga bytes 80-BF), kan en modern texteditor eller webläsare se i själva filen att den är gjord i UTF-8 och därmed Unicode, som det bara finns en version av, och alltid tolka filen som UTF-8 om den är det. Detta är en stor fördel mot nästan alla äldre kodningar, då det var svårt eller omöjligt att räkna ut kodningen om det inte direkt framgick. Nyare webläsare gör denna beräkning, innan dess var sådana problem vanliga under en tid när Unicode var nyare, och webläsarna inte stödde det bra. I Windows brukar Unicode-textfiler ha ett specialtecken först (U+FEFF, som inte visas), och med UTF-8 då blir de tre första bytena EF BB BF. Denna markering visar meddetsamma att att det rör sig om UTF-8. I Unix brukar man inte ha någon sådan markering, vilket inte är nödvändigt för att känna igen UTF-8. UTF-8 är standardiserad av ISO/IEC 10646, Unicode, och även RFC 3629 (UTF-8, a transformation format of ISO/IEC 10646). Nedan ges en sammanfattning. (sv)
  • UTF-8(8 位元 Universal Character Set/Unicode Transformation Format)是針對Unicode 的一種可變長度字元編碼。它可以用來表示 Unicode 標準中的任何字元,而且其編碼中的第一個位元組仍與 ASCII 相容,使得原來處理 ASCII 字元的軟體無需或只作少部份修改後,便可繼續使用。因此,它逐漸成為電子郵件、網頁及其他儲存或傳送文字的應用中,優先採用的編碼。 UTF-8 使用一至四個位元組為每個字符編碼: #128 個 US-ASCII 字符只需一個位元組編碼(Unicode 範圍由 U+0000 至 U+007F)。 #帶有變音符號的拉丁文、希臘文、西里爾字母、亞美尼亞語、希伯來文、阿拉伯文、敘利亞文及它拿字母則需要二個位元組編碼(Unicode 範圍由 U+0080 至 U+07FF)。 #其他基本多文種平面(BMP)中的字元(這包含了大部分常用字)使用三個位元組編碼。 #其他極少使用的 Unicode 輔助平面的字元使用四位元組編碼。 對上述提及的第四種字元而言,UTF-8 使用四個位元組來編碼似乎太耗費資源了。但 UTF-8 對所有常用的字元都可以用三個位元組表示,而且它的另一種選擇,UTF-16編碼,對前述的第四種字符同樣需要四個位元組來編碼,所以要決定 UTF-8 或 UTF-16 哪種編碼比較有效率,還要視所使用的字元的分佈範圍而定。不過,如果使用一些傳統的壓縮系統,比如 DEFLATE,則這些不同編碼系統間的的差異就變得微不足道了。若顧及傳統壓縮算法在壓縮較短文字上的效果不大,可以考慮使用 Standard Compression Scheme for Unicode(SCSU)。 網際網路工程工作小组(IETF)要求所有網際網路協議都必須支援 UTF-8 編碼。 互聯網郵件聯盟(IMC)建議所有電子郵件軟件都支援 UTF-8編碼。所有主要的電子郵件軟體中,只有 Eudora 不支援 UTF-8 編碼。[http://www.imc.org/mail-i18n.html] (zh)
p:hasPhotoCollection
p:javadocSeProperty
  • InputStreamReader (en)
  • OutputStreamWriter (en)
  • java/io (en)
p:name
  • modified UTF-8 (en)
p:noteLabelProperty
  • D800 (en)
  • Note 1 (en)
p:reference
p:wikiPageUsesTemplate
p:wikipage-de
p:wikipage-es
p:wikipage-fr
p:wikipage-it
p:wikipage-ja
p:wikipage-nl
p:wikipage-no
p:wikipage-pl
p:wikipage-pt
p:wikipage-ru
p:wikipage-sv
p:wikipage-zh
rdf:type
rdfs:comment
  • UTF-8 (8-bit UCS/Unicode Transformation Format) is a variable-length character encoding for Unicode. It is able to represent any character in the Unicode standard, yet the initial encoding of byte codes and character assignments for UTF-8 is backwards compatible with ASCII. For these reasons, it is steadily becoming the preferred encoding for e-mail, web pages, and other places where characters are stored or streamed. (en)
  • zabor UTF-8 (8-bit Unicode Transformation Format) es una norma de transmisión de longitud variable para caracteres codificados utilizando Unicode, creada por Rob Pike y Ken Thompson. UTF-8 usa grupos de bytes para representar el estándar de Unicode para los alfabetos de muchos de los lenguajes del mundo. Es especialmente útil para la transmisión sobre sistemas de correo de 8 bits. (es)
  • UTF-8 (Abk. für 8-bit Unicode Transformation Format) ist die am weitesten verbreitete Kodierung für Unicode-Zeichen. (de)
  • UTF-8 (UCS transformation format 8 bits) est un format de codage de caractères défini pour les caractères Unicode (UCS). Chaque caractère est codé sur une suite d'un à quatre octets. UTF-8 a été conçu pour être compatible avec certains logiciels originellement prévus pour traiter des caractères d'un seul octet. (fr)
  • UTF-8 (Unicode Transformation Format, 8 bit) è una codifica dei caratteri Unicode in sequenze di lunghezza variabile di byte, creata da Rob Pike e Ken Thompson. UTF-8 usa gruppi di byte per rappresentare i caratteri Unicode, ed è particolarmente utile per il trasferimento tramite sistemi di posta elettronica a 8-bit. (it)
  • UTF-8(旧UTF-2)はUCS(ISO/IEC 10646)、Unicodeで使える符号化方式。 正式名称は、ISO/IEC 10646では'UCS Transformation Format 8'、Unicodeでは'Unicode Translation Format-8'という。 両者はUCS-4とUnicodeのコード重複範囲で互換性がある。 2バイト目以降に'/'などのコードが現れないように工夫されていることから、'UTF-FSS'(File System Safe)ともいわれる。 RFCにも仕様がある。 (ja)
  • UTF-8 (8-bit Unicode Transformation Format) is een manier om Unicode/ISO 10646-tekens op te slaan als een stroom van bytes, een zogenaamde tekencodering. Het alternatief heet UTF-16. (nl)
  • UTF-8 (8-bit Unicode Transformation Format) er et Unicode-tegnsett med variabel tegnlengde oppfunnet av Ken Thompson og Rob Pike. Unicode er en nummerert samling av tegn, og UTF-8 representerer disse numrene med mellom en og fire byte, og er konstruert slik at de første 128 tegnene (U+0000 til U+007F), samsvarer nøyaktig med US-ASCII-standarden. UTF-8 er dermed bakoverkompatibelt med systemer som støtter ASCII-tekst. (no)
  • UTF-8 - system kodowania Unicodu. (pl)
  • UTF-8 (8-bit Unicode Transformation Format) é um tipo de codificação Unicode de comprimento variável criado por Ken Thompson e Rob Pike. Pode representar qualquer caracter universal padrão do Unicode, sendo também compatível com o ASCII. Por esta razão, está lentamente a ser adoptado como tipo de codificação padrão para email, páginas web, e outros locais onde os caracteres são armazenados. (pt)
  • UTF-8 (от — формат преобразования Юникода) — в настоящее время распространённая кодировка, реализующая представление Юникода, совместимое с 8-битным кодированием текста. (ru)
  • UTF-8 (åtta-bitars Unicode transformationsformat) är en teckenkodning (längdvarierande) som används för att representera text kodad i Unicode, som en sekvens av bytes, till exempel i textfiler. Unicode använder upp till 21 bitar, vilket inte får plats i en byte. (sv)
  • UTF-8(8 位元 Universal Character Set/Unicode Transformation Format)是針對Unicode 的一種可變長度字元編碼。它可以用來表示 Unicode 標準中的任何字元,而且其編碼中的第一個位元組仍與 ASCII 相容,使得原來處理 ASCII 字元的軟體無需或只作少部份修改後,便可繼續使用。因此,它逐漸成為電子郵件、網頁及其他儲存或傳送文字的應用中,優先採用的編碼。 (zh)
rdfs:label
  • UTF-8 (en)
  • UTF-8 (es)
  • UTF-8 (de)
  • UTF-8 (fr)
  • UTF-8 (it)
  • UTF-8 (ja)
  • UTF-8 (nl)
  • UTF-8 (no)
  • UTF-8 (pl)
  • UTF-8 (pt)
  • UTF-8 (ru)
  • UTF-8 (sv)
  • UTF-8 (zh)
skos:subject
foaf:page
p:redirect
owl:sameAs