| dbpedia-owl:abstract
|
- UTF-8 (Abk. für 8-bit UCS Transformation Format) ist die am weitesten verbreitete Kodierung für Unicode-Zeichen. Die Kodierung wurde im September 1992 von Ken Thompson und Rob Pike bei Arbeiten an dem Plan 9-Betriebssystem festgelegt. Die Kodierung wurde zunächst im Rahmen von X/Open als FSS-UTF bezeichnet, in den Folgejahren erfolgte im Rahmen der Standardisierung die Umbenennung auf die heute übliche Bezeichnung UTF-8.
- UTF-8 (UCS Transformation Format — 8-bit) is a multibyte character encoding for Unicode. Like UTF-16 and UTF-32, UTF-8 can represent every character in the Unicode character set. Unlike them, it is backward-compatible with ASCII and avoids the complications of endianness and byte order marks (BOM). For these and other reasons, UTF-8 has become the dominant character encoding for the World-Wide Web, accounting for more than half of all Web pages. The Internet Engineering Task Force (IETF) requires all Internet protocols to identify the encoding used for character data, and the supported character encodings must include UTF-8. The Internet Mail Consortium (IMC) recommends that all e‑mail programs be able to display and create mail using UTF-8. UTF-8 is also increasingly being used as the default character encoding in operating systems, programming languages, APIs, and software applications. UTF-8 encodes each of the 1,112,064 code points in the Unicode character set using one to four 8-bit bytes (termed “octets” in the Unicode Standard). Code points with lower numerical values (i. e. , earlier code positions in the Unicode character set, which tend to occur more frequently in practice) are encoded using fewer bytes, making the encoding scheme reasonably efficient. In particular, the first 128 characters of the Unicode character set, which correspond one-to-one with ASCII, are encoded using a single octet with the same binary value as the corresponding ASCII character, making valid ASCII text valid UTF-8-encoded Unicode text as well. The official IANA code for the UTF-8 character encoding is .
- UTF-8 es un formato de codificación de caracteres Unicode e ISO 10646 utilizando símbolos de longitud variable. UTF-8 fue creado por Robert C. Pike y Kenneth L. Thompson. Está definido como estándar por la RFC 3629 de la Internet Engineering Task Force (IETF). Actualmente es una de las tres posibilidades de codificación reconocidas por Unicode y lenguajes web, o cuatro en ISO 10646. Sus características principales son: Es capaz de representar cualquier carácter Unicode. Usa símbolos de longitud variable (de 1 a 4 bytes por carácter Unicode). Incluye la especificación US-ASCII de 7 bits, por lo que cualquier mensaje ASCII se representa sin cambios. Incluye sincronía. Es posible determinar el inicio de cada símbolo sin reiniciar la lectura desde el principio de la comunicación. No superposición. Los conjuntos de valores que puede tomar cada byte de un caracter multibyte, son disjuntos, por lo que no es posible confundirlos entre sí. Estas características lo hacen atractivo en la codificación de correos electrónicos y páginas web. El IETF requiere que todos los protocolos de Internet indiquen qué codificación utilizan para los textos y que UTF-8 sea una de las codificaciones contempladas. El Internet Mail Consortium (IMC) recomienda que todos los programas de correo electrónico sean capaces de crear y mostrar mensajes codificados utilizando UTF-8.
- UTF-8 (Unicode Transformation Format, 8 bit) è una codifica dei caratteri Unicode in sequenze di lunghezza variabile di byte, creata da Rob Pike e Ken Thompson. UTF-8 usa gruppi di byte per rappresentare i caratteri Unicode, ed è particolarmente utile per il trasferimento tramite sistemi di posta elettronica a 8-bit. UTF-8 usa da 1 a 4 byte per rappresentare un carattere Unicode. Per esempio un solo byte è necessario per rappresentare i 128 caratteri dell'alfabeto ASCII, corrispondenti alle posizioni Unicode da U+0000 a U+007F. Quattro byte possono sembrare troppi per un solo carattere; tuttavia questo è richiesto solo per i caratteri che stanno fuori dal Basic Multilingual Plane, generalmente molto rari. Inoltre anche UTF-16 (la principale alternativa a UTF-8) richiede quattro byte per questi caratteri. Quale sia più efficiente, UTF-8 o UTF-16, dipende dall'intervallo di caratteri utilizzati, e l'uso di algoritmi di compressione tradizionali riduce in maniera significativa la differenza tra le due codifiche. Per brevi brani di testo, su cui gli algoritmi di compressione tradizionali non sono efficienti e una ridotta occupazione di memoria è importante si potrebbe utilizzare lo Schema di compressione standard per Unicode. La IETF (Internet Engineering Task Force) richiede che tutti i protocolli Internet identifichino la codifica dei caratteri utilizzata, e che siano in grado di utilizzare almeno UTF-8.
- UTF-8(ユーティーエフはち、ユーティーエフエイト)はISO/IEC 10646(UCS)とUnicodeで使える8ビット符号単位の文字符号化形式及び文字符号化スキーム。 正式名称は、ISO/IEC 10646では‘UCS Transformation Format 8’、Unicodeでは‘Unicode Transformation Format-8’という。両者はISO/IEC 10646とUnicodeのコード重複範囲で互換性がある。RFCにも仕様がある。 2バイト目以降に「/」などのASCII文字が現れないように工夫されていることから、UTF-FSS(File System Safe)ともいわれる。旧名称はUTF-2。 データ交換方式、ファイル形式としては一般的にUTF-8が使われる傾向がある。Linuxのように、OSの標準文字エンコードとして使用される例も増えている。 当初は、ベル研究所において Plan 9で用いるエンコードとして、ロブ・パイクによる設計指針のもと、ケン・トンプソンによって考案された。
- UTF-8 (8-bit Unicode Transformation Format) is een manier om Unicode/ISO 10646-tekens op te slaan als een stroom van bytes, een zogenaamde tekencodering. Alternatieven zijn UTF-16 en UTF-32. UTF-8 is een tekencodering met een variabele lengte: niet elk teken gebruikt evenveel bytes. Afhankelijk van het teken worden 1 tot 4 bytes gebruikt. Voor het vastleggen van elk van de 128 ASCII-tekens is slechts één byte nodig. Hoewel het niet efficiënt lijkt om Unicodetekens in 4 bytes te moeten coderen, is UTF-8 eenvoudig in gebruik omdat de codering van een tekst met uitsluitend ASCII-tekens in ASCII en UTF-8 gelijk is.
- UTF-8 (8-bit Unicode Transformation Format) er et Unicode-tegnsett med variabel tegnlengde oppfunnet av Ken Thompson og Rob Pike. Unicode er en nummerert samling av tegn, og UTF-8 representerer disse numrene med mellom en og fire byte, og er konstruert slik at de første 128 tegnene (U+0000 til U+007F), samsvarer nøyaktig med US-ASCII-standarden. UTF-8 er dermed bakoverkompatibelt med systemer som støtter ASCII-tekst.
- UTF-8 - system kodowania Unicode.
- UTF-8 é um tipo de codificação Unicode de comprimento variável criado por Ken Thompson e Rob Pike. Pode representar qualquer carácter universal padrão do Unicode, sendo também compatível com o ASCII. Por esta razão, está lentamente a ser adoptado como tipo de codificação padrão para email, páginas web, e outros locais onde os caracteres são armazenados. UTF-8 usa de um a quatro bytes (estritamente, octetos) por carácter, dependendo do símbolo Unicode que representa. É necessário apenas um byte para codificar os 128 caracteres ASCII (Unicode U+0000 a U+007F). São necessários dois bytes para caracteres Latinos com diacríticos. São também usados dois bytes para representar caracteres dos alfabetos Grego, Cirílico, Armênio, Hebraico, Sírio e Thaana (Unicode U+0080 a U+07FF). São necessários três bytes para o resto do Plano Multilingual Básico (que contém praticamente todos os caracteres comuns utilizados). Existem ainda outros caracteres que necessitam de quatro bytes. Quatro bytes pode parecer muito para um carácter ("code point"), mas muito raramente são utilizados. Além disso, UTF-16 (a principal alternativa ao UTF-8) necessita também de quatro bytes para estes "code points". A definição de qual dos dois é mais eficiente (UTF-8 ou UTF-16) depende da variedade de "code points" usados. Contudo, as diferenças entre os vários tipos de codificação tornam-se irrelevantes com o uso de sistemas de compressão como o DEFLATE. Para textos curtos nos quais os tradicionais algoritmos não funcionam bem e se faz necessário ter o tamanho em consideração, é geralmente usado o Esquema Padrão de Compressão para Unicode. O "Internet Engineering Task Force" (IETF) requer que todos os protocolos utilizados na Internet suportem, pelo menos, o UTF-8. O "Internet Mail Consortium" (IMC) http://www. imc. org/mail-i18n. html recomenda que todos os clientes de email consigam ler e criar mails usando o UTF-8.
- UTF-8 (от англ. Unicode Transformation Format — формат преобразования Юникода) — в настоящее время распространённая кодировка, реализующая представление Юникода, совместимое с 8-битным кодированием текста. Нашла широкое применение в операционных системах и веб-пространстве. В отличие от UTF-16, UTF-8 является самосинхронизирующейся кодировкой: при потере одного байта последующие байты будут раскодированы корректно. Текст, состоящий только из символов Юникода с номерами меньше 128, при записи в UTF-8 превращается в обычный текст ASCII. И наоборот, в тексте UTF-8 любой байт со значением меньше 128 изображает символ ASCII с тем же кодом. Остальные символы Юникода изображаются последовательностями длиной от 2 до 6 байт (реально только до 4 байт, поскольку использование кодов больше 2 не планируется), в которых первый байт всегда имеет вид, а остальные — . Проще говоря, в формате UTF-8 символы латинского алфавита, знаки препинания и управляющие символы ASCII записываются кодами US-ASCII, a все остальные символы кодируются при помощи нескольких октетов со старшим битом 1. Это приводит к двум эффектам. Даже если программа не распознаёт Юникод, то латинские буквы, арабские цифры и знаки препинания будут отображаться правильно. В случае, если латинские буквы и простейшие знаки препинания (включая пробел) занимают существенный объём текста, UTF-8 даёт выигрыш по объёму по сравнению с UTF-16. На первый взгляд может показаться, что UTF-16 удобнее, так как в ней большинство символов кодируется ровно двумя байтами. Однако это сводится на нет необходимостью поддержки суррогатных пар, о которых часто забывают при использовании UTF-16, реализуя лишь поддержку символов UCS-2. Формат UTF-8 был изобретён 2 сентября 1992 года Кеном Томпсоном и Робом Пайком и реализован в Plan 9. Сейчас стандарт UTF-8 официально закреплён в документах RFC 3629 и ISO/IEC 10646 Annex D. Символы UTF-8 получаются из Unicode следующим образом: Также теоретически возможны, но не включены в стандарты: Замечание: Символы, закодированные в UTF-8, могут быть длиной до шести байт, однако стандарт Unicode не определяет символов выше, поэтому символы Unicode могут иметь максимальный размер в 4 байта в UTF-8.
- UTF-8 är en längdvarierande teckenkodning som används för att representera text kodad i Unicode, som en sekvens av byte (oktetter). Unicode använder upp till 21 bitar per tecken, vilket inte får plats i en byte, och därför används till exempel i textfiler vanligen en av metoderna UTF-8 eller UTF-16 för att få en serie bytes. UTF-8 har valts som huvudsaklig teckenkodning i internetprotokoll: nya protokoll måste stöda denna teckenkodning, om det inte av speciella skäl är olämpligt.
- UTF-8(8-bit Unicode Transformation Format)是一種針對Unicode的可變長度字元編碼(定长码),也是一种前缀码。它可以用來表示Unicode標準中的任何字元,且其編碼中的第一個位元組仍與ASCII相容,這使得原來處理ASCII字元的軟體無須或只須做少部份修改,即可繼續使用。因此,它逐漸成為電子郵件、網頁及其他儲存或傳送文字的應用中,優先採用的編碼。 UTF-8使用一至四個位元組為每個字符編碼: 128個US-ASCII字符只需一個位元組編碼(Unicode範圍由U+0000至U+007F)。 帶有附加符号的拉丁文、希臘文、西里爾字母、亞美尼亞語、希伯來文、阿拉伯文、敘利亞文及它拿字母則需要二個位元組編碼(Unicode範圍由U+0080至U+07FF)。 其他基本多文種平面(BMP)中的字元(這包含了大部分常用字)使用三個位元組編碼。 其他極少使用的Unicode 輔助平面的字元使用四位元組編碼。 對上述提及的第四種字元而言,UTF-8使用四個位元組來編碼似乎太耗費資源了。但UTF-8對所有常用的字元都可以用三個位元組表示,而且它的另一種選擇,UTF-16編碼,對前述的第四種字符同樣需要四個位元組來編碼,所以要決定UTF-8或UTF-16哪種編碼比較有效率,還要視所使用的字元的分佈範圍而定。不過,如果使用一些傳統的壓縮系統,比如DEFLATE,則這些不同編碼系統間的的差異就變得微不足道了。若顧及傳統壓縮算法在壓縮較短文字上的效果不大,可以考慮使用Unicode標準壓縮格式(SCSU)。 網際網路工程工作小組(IETF)要求所有網際網路協議都必須支持UTF-8編碼。 互聯網郵件聯盟(IMC)建議所有電子郵件軟件都支持UTF-8編碼。所有主要的電子郵件軟體中,只有Eudora不支持UTF-8編碼。http://www. imc. org/mail-i18n. html
- UTF-8 est un format de codage de caractères. Chaque caractère ou graphème est représenté dans un répertoire universel sous la forme d’une suite d’un ou plusieurs « caractères abstraits», alloués séparément et codés chacun par leur position dans le répertoire universel, position appelée « point de code ». Chaque point de code est ensuite codé de façon unique sur une suite d’un à quatre octets. Ce format de transformation a été conçu pour être compatible avec de nombreux logiciels originellement prévus pour traiter des caractères codés sur un seul octet. Note : le concept de « point de code » (en anglais code point) utilisé dans cet article est un concept avec une terminologie bien définie (en anglais pour la norme Unicode, et à la fois en anglais et en français dans la norme ISO/CEI 10646). Il est indépendant des codages de caractères effectivement utilisés, et donc d’UTF-8, mais fait directement référence et de façon non ambiguë au répertoire universel de caractères codés. Cette terminologie est utilisée pour éviter les confusions fréquentes avec les « unités de code » qui permettent ensuite de définir un « format de transformation universel » tel qu’UTF-8 (lequel transforme chaque point de code d’abord en sa « valeur scalaire », puis en une suite unique d’entiers scalaires de taille fixe) et les « codets » de sérialisation (qui dans le cas du schéma de codage de caractère UTF-8 sont identiques au unités de code issues du format de transformation UTF-8, tant que cette sérialisation permet de représenter les unités de code en un seul codet de 8 bits). L’expression se distingue également du nom « code » utilisé seul, qui désigne l’ensemble du système de codification (indépendamment des textes ou caractères à codifier). D'un point de vue technique, tout « format de transformation universel » (compatible et conforme avec la norme ISO/CEI 10646 tel qu’UTF-8), est défini pour tous les points de code ayant une « valeur scalaire » (qu’ils soient attribués ou non à des caractères abstraits, ou à des « non-caractères ») dans le répertoire universel de caractères codés (Universal Character Set, ou UCS), ce répertoire étant aujourd’hui commun à la norme ISO/CEI 10646 (depuis sa révision 1) et au standard Unicode (depuis sa version 1.1). UTF-8 est apparu initialement dans une proposition de standard publiée en 1996 dans la RFC 2044 (« UTF-8, a transformation format of ISO 10646 »). Depuis lors, cette RFC a fait l’objet d’une normalisation par le comité technique de la norme ISO/CEI 10646 qui a publié en 1998 une première révision dans la RFC 2279. À peu près en même temps que le Consortium Unicode et l’ISO ont convenu de synchroniser leurs répertoires, le codage est aussi apparu dans le rapport technique 17 de la norme Unicode. D’autres restrictions ont été ajoutées et incorporées dans le standard Unicode en 2003, où il fait désormais partie intégrante de la norme dans son chapitre 3 « Conformité » (Conformance). À la même date ces restrictions ont été approuvées par l’Organisation internationale de normalisation (ISO) qui a publié la RFC 3629. Le codage UTF-8 est approuvé par l’Internet Engineering Task Force (IETF), qui suit ses évolutions dans le Standard Track BCP 63; il est également approuvé par le World Wide Web Consortium (W3C), et la plupart des organismes de normalisation nationaux. L’IETF requiert maintenant qu’UTF-8 soit pris en charge par défaut (et non pas simplement supporté en tant qu’extension) par tous les nouveaux protocoles de communication d’Internet (publiés dans ses RFC numérotées) qui échangent du texte .
|
| rdfs:comment
|
- UTF-8 (Abk. für 8-bit UCS Transformation Format) ist die am weitesten verbreitete Kodierung für Unicode-Zeichen. Die Kodierung wurde im September 1992 von Ken Thompson und Rob Pike bei Arbeiten an dem Plan 9-Betriebssystem festgelegt. Die Kodierung wurde zunächst im Rahmen von X/Open als FSS-UTF bezeichnet, in den Folgejahren erfolgte im Rahmen der Standardisierung die Umbenennung auf die heute übliche Bezeichnung UTF-8.
- UTF-8(ユーティーエフはち、ユーティーエフエイト)はISO/IEC 10646(UCS)とUnicodeで使える8ビット符号単位の文字符号化形式及び文字符号化スキーム。 正式名称は、ISO/IEC 10646では‘UCS Transformation Format 8’、Unicodeでは‘Unicode Transformation Format-8’という。両者はISO/IEC 10646とUnicodeのコード重複範囲で互換性がある。RFCにも仕様がある。 2バイト目以降に「/」などのASCII文字が現れないように工夫されていることから、UTF-FSS(File System Safe)ともいわれる。旧名称はUTF-2。 データ交換方式、ファイル形式としては一般的にUTF-8が使われる傾向がある。Linuxのように、OSの標準文字エンコードとして使用される例も増えている。 当初は、ベル研究所において Plan 9で用いるエンコードとして、ロブ・パイクによる設計指針のもと、ケン・トンプソンによって考案された。
- UTF-8 (8-bit Unicode Transformation Format) er et Unicode-tegnsett med variabel tegnlengde oppfunnet av Ken Thompson og Rob Pike. Unicode er en nummerert samling av tegn, og UTF-8 representerer disse numrene med mellom en og fire byte, og er konstruert slik at de første 128 tegnene (U+0000 til U+007F), samsvarer nøyaktig med US-ASCII-standarden. UTF-8 er dermed bakoverkompatibelt med systemer som støtter ASCII-tekst.
- UTF-8 - system kodowania Unicode.
- UTF-8 är en längdvarierande teckenkodning som används för att representera text kodad i Unicode, som en sekvens av byte (oktetter). Unicode använder upp till 21 bitar per tecken, vilket inte får plats i en byte, och därför används till exempel i textfiler vanligen en av metoderna UTF-8 eller UTF-16 för att få en serie bytes. UTF-8 har valts som huvudsaklig teckenkodning i internetprotokoll: nya protokoll måste stöda denna teckenkodning, om det inte av speciella skäl är olämpligt.
- UTF-8 (UCS Transformation Format — 8-bit) is a multibyte character encoding for Unicode. Like UTF-16 and UTF-32, UTF-8 can represent every character in the Unicode character set. Unlike them, it is backward-compatible with ASCII and avoids the complications of endianness and byte order marks (BOM). For these and other reasons, UTF-8 has become the dominant character encoding for the World-Wide Web, accounting for more than half of all Web pages.
- UTF-8 es un formato de codificación de caracteres Unicode e ISO 10646 utilizando símbolos de longitud variable. UTF-8 fue creado por Robert C. Pike y Kenneth L. Thompson. Está definido como estándar por la RFC 3629 de la Internet Engineering Task Force (IETF). Actualmente es una de las tres posibilidades de codificación reconocidas por Unicode y lenguajes web, o cuatro en ISO 10646. Sus características principales son: Es capaz de representar cualquier carácter Unicode.
- UTF-8 (Unicode Transformation Format, 8 bit) è una codifica dei caratteri Unicode in sequenze di lunghezza variabile di byte, creata da Rob Pike e Ken Thompson. UTF-8 usa gruppi di byte per rappresentare i caratteri Unicode, ed è particolarmente utile per il trasferimento tramite sistemi di posta elettronica a 8-bit. UTF-8 usa da 1 a 4 byte per rappresentare un carattere Unicode.
- UTF-8 (8-bit Unicode Transformation Format) is een manier om Unicode/ISO 10646-tekens op te slaan als een stroom van bytes, een zogenaamde tekencodering. Alternatieven zijn UTF-16 en UTF-32. UTF-8 is een tekencodering met een variabele lengte: niet elk teken gebruikt evenveel bytes. Afhankelijk van het teken worden 1 tot 4 bytes gebruikt. Voor het vastleggen van elk van de 128 ASCII-tekens is slechts één byte nodig.
- UTF-8 é um tipo de codificação Unicode de comprimento variável criado por Ken Thompson e Rob Pike. Pode representar qualquer carácter universal padrão do Unicode, sendo também compatível com o ASCII. Por esta razão, está lentamente a ser adoptado como tipo de codificação padrão para email, páginas web, e outros locais onde os caracteres são armazenados. UTF-8 usa de um a quatro bytes (estritamente, octetos) por carácter, dependendo do símbolo Unicode que representa.
- UTF-8 (от англ. Unicode Transformation Format — формат преобразования Юникода) — в настоящее время распространённая кодировка, реализующая представление Юникода, совместимое с 8-битным кодированием текста. Нашла широкое применение в операционных системах и веб-пространстве. В отличие от UTF-16, UTF-8 является самосинхронизирующейся кодировкой: при потере одного байта последующие байты будут раскодированы корректно.
- UTF-8(8-bit Unicode Transformation Format)是一種針對Unicode的可變長度字元編碼(定长码),也是一种前缀码。它可以用來表示Unicode標準中的任何字元,且其編碼中的第一個位元組仍與ASCII相容,這使得原來處理ASCII字元的軟體無須或只須做少部份修改,即可繼續使用。因此,它逐漸成為電子郵件、網頁及其他儲存或傳送文字的應用中,優先採用的編碼。 UTF-8使用一至四個位元組為每個字符編碼: 128個US-ASCII字符只需一個位元組編碼(Unicode範圍由U+0000至U+007F)。 帶有附加符号的拉丁文、希臘文、西里爾字母、亞美尼亞語、希伯來文、阿拉伯文、敘利亞文及它拿字母則需要二個位元組編碼(Unicode範圍由U+0080至U+07FF)。 其他基本多文種平面(BMP)中的字元(這包含了大部分常用字)使用三個位元組編碼。 其他極少使用的Unicode 輔助平面的字元使用四位元組編碼。 對上述提及的第四種字元而言,UTF-8使用四個位元組來編碼似乎太耗費資源了。但UTF-8對所有常用的字元都可以用三個位元組表示,而且它的另一種選擇,UTF-16編碼,對前述的第四種字符同樣需要四個位元組來編碼,所以要決定UTF-8或UTF-16哪種編碼比較有效率,還要視所使用的字元的分佈範圍而定。不過,如果使用一些傳統的壓縮系統,比如DEFLATE,則這些不同編碼系統間的的差異就變得微不足道了。若顧及傳統壓縮算法在壓縮較短文字上的效果不大,可以考慮使用Unicode標準壓縮格式(SCSU)。 網際網路工程工作小組(IETF)要求所有網際網路協議都必須支持UTF-8編碼。 互聯網郵件聯盟(IMC)建議所有電子郵件軟件都支持UTF-8編碼。所有主要的電子郵件軟體中,只有Eudora不支持UTF-8編碼。http://www.
- UTF-8 est un format de codage de caractères. Chaque caractère ou graphème est représenté dans un répertoire universel sous la forme d’une suite d’un ou plusieurs « caractères abstraits», alloués séparément et codés chacun par leur position dans le répertoire universel, position appelée « point de code ». Chaque point de code est ensuite codé de façon unique sur une suite d’un à quatre octets.
|