About: UTF-32

An Entity of Type: Format106636806, from Named Graph: http://dbpedia.org, within Data Space: dbpedia.org

UTF-32 (32-bit Unicode Transformation Format) is a fixed-length encoding used to encode Unicode code points that uses exactly 32 bits (four bytes) per code point (but a number of leading bits must be zero as there are far fewer than 232 Unicode code points, needing actually only 21 bits). UTF-32 is a fixed-length encoding, in contrast to all other Unicode transformation formats, which are variable-length encodings. Each 32-bit value in UTF-32 represents one Unicode code point and is exactly equal to that code point's numerical value.

Property Value
dbo:abstract
  • UTF-32 (taktéž UCS-4) je protokol pro kódování Unicode znaků. Tento protokol kóduje každý znak (kód nebo kódový bod sady Unicode) právě 32 bity (čtyřmi bajty). Tím vzniká přímá reprezentace znaku. Ostatní běžná kódování Unicode, používají pro zakódování jednoho znaku proměnný počet bitů. (cs)
  • UTF-32 ist eine Methode zur Kodierung von Unicode-Zeichen, bei der jedes Zeichen mit vier Byte (32 Bit) kodiert wird. Sie kann deshalb als die einfachste Kodierung bezeichnet werden, da alle anderen UTF-Kodierungen variable Bytelängen benutzen. Im Unicode Standard ist UTF-32 eine Untermenge von UCS-4. (de)
  • UTF-32 est un codage des caractères défini par Unicode où chaque caractère est codé sur un mot de 32 bits. Le codage était défini dans l’annexe 19 à la norme Unicode. Depuis, l’annexe est devenue obsolète, car UTF-32 fait partie intégrante de la norme Unicode, dans son chapitre 3 Conformance où elle est définie de façon très stricte. (fr)
  • UTF-32(およびUCS-4。を参照)は、Unicodeの各符号位置に32ビット符号単位 1つだけを使う、固定長のUnicodeの符号化形式および符号化スキームである。他の UTF(英: Unicode transformation format)はすべて符号位置によって符号単位列の長さが変化する可変長であるため、UTF-32はもっとも単純なUTFであるとみなせる。 UTF-32は、テキストファイルで使用されることは少なく、主にシステムのメモリ上での管理や、符号位置の数で管理するデータベースなどで使用される。 (ja)
  • UTF-32 (32-bit Unicode Transformation Format) is a fixed-length encoding used to encode Unicode code points that uses exactly 32 bits (four bytes) per code point (but a number of leading bits must be zero as there are far fewer than 232 Unicode code points, needing actually only 21 bits). UTF-32 is a fixed-length encoding, in contrast to all other Unicode transformation formats, which are variable-length encodings. Each 32-bit value in UTF-32 represents one Unicode code point and is exactly equal to that code point's numerical value. The main advantage of UTF-32 is that the Unicode code points are directly indexed. Finding the Nth code point in a sequence of code points is a constant-time operation. In contrast, a variable-length code requires linear-time to count N code points from the start of the string. This makes UTF-32 a simple replacement in code that uses integers that are incremented by one to examine each location in a string, as was commonly done for ASCII. However, Unicode code points are rarely processed in complete isolation, such as combining character sequences and for emoji. The main disadvantage of UTF-32 is that it is space-inefficient, using four bytes per code point, including 11 bits that are always zero. Characters beyond the BMP are relatively rare in most texts (except for e.g. texts with some popular emojis), and can typically be ignored for sizing estimates. This makes UTF-32 close to twice the size of UTF-16. It can be up to four times the size of UTF-8 depending on how many of the characters are in the ASCII subset. (en)
  • UTF-32(32-bit Unicode Transformation Format)또는 UCS-4는 유니코드 문자 인코딩 방식의 하나이다. 이것은 모든 유니코드 문자를 같은 길이로 인코딩한다. (ko)
  • UTF-32 (Unicode Transformation Format, 32 bit) è una codifica di caratteri Unicode in sequenze di numeri a 32-bit. È conosciuta anche come UCS-4 (Universal Character Set a 4 byte). A differenza delle altre codifiche Unicode (UTF-8, UTF-16) che usano una rappresentazione dei dati a lunghezza variabile, UTF-32 è a lunghezza fissa. Proprio l'uso di 4 byte per ogni carattere lo porta a non essere molto efficiente sulla gestione dello spazio. Nello specifico, i caratteri al di fuori del Basic Multilingual Plane sono così rari che per molti testi possono essere considerati come inesistenti (ai fini del calcolo della dimensione), ma questo fatto rende la dimensione del testo codificato in UTF-32 da due a quattro volte più grande rispetto alle altre codifiche. Anche se l'avere un numero fisso di byte per carattere da codificare può sembrare più semplice, questa codifica è usata meno frequentemente delle altre. Facilita la divisione di stringhe, ma non significativamente se confrontata con UTF-8 e UTF-16. Non semplifica il calcolo della lunghezza effettiva della stringa visualizzata se non in limitati casi, perché, anche con font a larghezza fissa ci possono essere più punti di codifica per ogni posizione di carattere (i caratteri combinati) o più di un carattere visualizzato per una singola codifica (per esempio negli ideogrammi CJK). I caratteri combinati fanno sì che gli editor di testo non possano trattare ogni singolo carattere codificato come un singolo carattere che sia possibile editare. Sebbene in generale poco utilizzata, questa codifica ha una proprietà che può renderla interessante in qualche caso: il valore numerico dei 32 bit che codificano in UTF-32 ciascun code point (punto di codifica) è esattamente il valore numerico che identifica il code point. In altri termini, se il nome del code point è U+XYZK (con XYZK cifre esadecimali) la rappresentazione esadecimale del numero binario di 32 bit che ne rappresenta la codifica UTF-32 è esattamente XYZK. (it)
  • UTF-32 (ang. 32-bit unicode transformation format) – jeden ze sposobów kodowania znaków standardu Unicode. Sposób ten wymaga użycia 32-bitowych słów. Zestaw znaków jest też zdefiniowany w standardzie ISO 10646 jako UCS-4. Kody obejmują zakres od 0 do 0x7FFFFFFF. Kod znaku zawsze ma długość 4 bajtów i w zapisie big endian przedstawia po prostu numer znaku w tabeli Unikodu. Możliwa jest również odwrotna kolejność – w zapisie little endian, co nakłada obowiązek używania znacznika kierunku BOM. Stała długość kodu każdego znaku (w przeciwieństwie do m.in. UTF-8) jest dużą zaletą tego kodowania. Kodowanie to jest jednak bardzo nieefektywne - zakodowane ciągi znaków są dwa do czterech razy dłuższe niż ciągi tych samych znaków zapisanych w innych kodowaniach. Kodowanie to z tego powodu jest zwykle stosowane tylko w pamięci operacyjnej w celu ułatwienia obsługi i przetwarzania (np. obliczenie długości czy wycinanie ciągu znaków jest bardzo proste), na innych nośnikach (takich jak połączenia sieciowe czy dysk twardy) stosuje się zwykle bardziej efektywne UTF-8 lub UTF-16. W systemach uniksowych kodowanie to jest najczęściej używane do wewnętrznego przechowywania napisów Unicode. (pl)
  • UTF-32 (англ. Unicode Transformation Format) или UCS-4 (универсальный набор символов, англ. Universal Character Set) в информатике — один из способов кодирования символов Юникода, использующий для кодирования любого символа ровно 32 бита. Остальные кодировки, UTF-8 и UTF-16, используют для представления символов переменное число байтов. Символ UTF-32 является прямым представлением его кодовой позиции (Code point). Главное преимущество UTF-32 перед кодировками переменной длины заключается в том, что символы Юникод непосредственно индексируемы. Получение n-ой кодовой позиции является операцией, занимающей одинаковое время. Напротив, коды с переменной длиной требует последовательного доступа к n-ой кодовой позиции. Это делает замену символов в строках UTF-32 простой, для этого используется целое число в качестве индекса, как обычно делается для строк ASCII. Главный недостаток UTF-32 — это неэффективное использование пространства, так как для хранения символа используется четыре байта. Символы, лежащие за пределами нулевой (базовой) плоскости кодового пространства, редко используются в большинстве текстов. Поэтому удвоение, в сравнении с UTF-16, занимаемого строками в UTF-32 пространства, не оправдано. Хотя использование неменяющегося числа байтов на символ удобно, но не настолько, как кажется. Операция усечения строк реализуется легче в сравнении с UTF-8 и UTF-16. Но это не делает более быстрым нахождение конкретного смещения в строке, так как смещение может вычисляться и для кодировок фиксированного размера. Это не облегчает вычисление отображаемой ширины строки, за исключением ограниченного числа случаев, так как даже символ «фиксированной ширины» может быть получен комбинированием обычного символа с модифицирующим, который не имеет ширины. Например, буква «й» может быть получена из буквы «и» и диакритического знака «крючок над буквой». Сочетание таких знаков означает, что текстовые редакторы не могут рассматривать 32-битный код как единицу редактирования. Редакторы, которые ограничиваются работой с языками с письмом слева направо и составными символами (англ. Precomposed character), могут использовать символы фиксированного размера. Но такие редакторы вряд ли поддержат символы, лежащие за пределами нулевой (базовой) плоскости кодового пространства и вряд ли смогут работать одинаково хорошо с символами UTF-16. (ru)
  • UTF-32 är ett sätt att koda tecknen i Unicode, ett ”transformationsformat” (Unicode Transformation Format, UTF). UTF-32 beskriver helt enkelt att varje tecken i Unicode kodas med ett 32 bitar långt binärt tal motsvarande tecknets positionsnummer i Unicode-standarden. Att kodningen direkt motsvarar positionsnumret och att alla tecken är lika långa gör kodningen lätt att använda i datorprogram. Däremot tar den i de flesta fall mer utrymme än alternativen och används därför sällan i filer eller dataöverföring. UTF-32 motsvarar det sätt att representera tecknen i ISO-standarden ISO/IEC 10646 som där kallas UCS-4 (Universal Character Set, 4 oktetters representation). Benämningen UTF-32 används inte i ISO/IEC 10646. (sv)
  • UTF-32 ou UCS-4 são nomes alternativos para o método de codificação de caracters, usando a quantidade fixa de exatamente 32 bits para cada caractere Unicode. Ele pode ser considerado como a forma de codificação mais simples, como todos os outros Unicode Transformation Formats (em português: Formato de Transformação Unicode) possui codificação de comprimento variável para vários code points. No entanto, o UTF-32 usa 4 bytes para cada caractere, que é considerado ineficiente. Especificamente, caracteres que não pertencem ao (PBM) são tão raros em quase todos os textos que eles podem ser considerados como pouco importantes para discussões importantes. Isto significa que UTF-32 é geralmente pelo menos o dobro ou quatro vezes maior que o tamanho normal das outras codificações. Também, enquanto um número fixo de bytes por ponto de código pareça ser conveniente de primeiro, não é. Torna o truncamento levemente mais fácil, mas não tão significativo de UTF-8 e UTF-16. Não faz o cálculo de largura de uma string exibida mais fácil, exceto em casos muito limitados; mesmo com uma fonte de "tamanho fixo" pode haver mais que um ponto de código por posição de caractere (marcas combinadas) (por exemplo ideógrafos CJK). Combinando marcas também quer dizer que os editores não podem tratar um ponto de código como se fosse uma unidade para edição. Por estas razões o UTF-32 é pouco utilizado na prática, com UTF-8 e UTF-16 sendo o método comum de codificar texto Unicode. (pt)
  • UTF-32 (англ. Unicode Transformation Format) або UCS-4 (універсальний набір символів, англ. Universal Character Set) в інформатиці — один зі способів кодування символів Юнікоду, який використовує для кодування будь-якого символу рівно 32 біти. Інші кодування, UTF-8 і UTF-16, використовують для подання символів змінну кількість байтів. Символ UTF-32 є прямим поданням його Головна перевага UTF-32 перед кодуванням змінної довжини полягає в тому, що символи Юнікоду індексуються безпосередньо. Отримання n-ї кодової позиції є операцією, що займає однаковий час. І навпаки: коди зі змінною довжиною вимагають послідовного доступу до n-ї кодової позиції. Це робить заміну символів у рядках UTF-32 простою, індексом для цього є ціле число, як зазвичай робиться для рядків ASCII. Головний недолік UTF-32 — це неефективне використання пам'яті, оскільки для зберігання символу використовується чотири байти. Символи, що лежать поза нульовою (базовою) площиною кодового простору, рідко застосовуються в більшості текстів. Тому подвоєння, порівняно з UTF-16, займаного рядками в UTF-32 обсягу, не виправдане. Хоча використання незмінного числа байтів на символ зручне, але не настільки, як здається. Операція обрізання рядків реалізується легше, порівняно з UTF-8 та UTF-16. Але це не робить швидшим знаходження конкретного зміщення в рядку, оскільки зміщення може обчислюватися і для кодувань фіксованого розміру. Це не полегшує обчислення видимої ширини рядка, за винятком обмеженої кількості випадків, тому що навіть символ «фіксованої ширини» може отримуватися комбінуванням звичайного символу з модифікувальним, який не має ширини. Наприклад, літеру «й» можна отримати з літери «и» та діакритичного знака «гачок над літерою». Поєднання таких знаків означає, що текстові редактори не можуть розглядати 32-розрядний код як одиницю редагування. Редактори, які обмежуються роботою з мовами з письмом зліва направо та складеними символами (англ. precomposed character) можуть використовувати символи фіксованого розміру. Але такі редактори навряд чи підтримають символи, що лежать поза нульовою (базовою) площиною кодового простору і навряд чи зможуть працювати однаково добре із символами UTF-16. (uk)
  • UTF-32是32位Unicode转换格式(Unicode Transformation Formats, 或UTF)的缩写。UTF-32是一种用于编码Unicode的协定,该协定使用32位比特对每个Unicode码位进行编码(但前导比特数必须为零,故仅能表示231个Unicode码位)。与其他可变长度的Unicode转换格式(UTF)相比,UTF-32编码长度是固定的,UTF-32中的每个32位值代表一个Unicode码位,并且与该码位的数值完全一致。 UTF-32的主要优点是可以直接由Unicode码位来索引。在编码序列中查找第N个编码是一个常数时间操作。相比之下,其他可变长度编码需要进行循序存取操作才能在编码序列中找到第N个编码。这使得在计算机程序设计中,编码序列中的字符位置可以用一个整数来表示,整数加一即可得到下一个字符的位置,就和ASCII字符串一样简单。 UTF-32的主要缺点是每个码位使用四个字节,空间浪费较多。在大多数文本中,非基本多文種平面的字符非常罕见,这使得UTF-32所需空间接近UTF-16的两倍和UTF-8的四倍(具体取决于文本中ASCII字符的比例)。 尽管每一個碼位使用固定長度的位元組看似方便,但UTF-32並不如其它Unicode編碼使用廣泛。與UTF-8及UTF-16相比,UTF-32更容易遭到截斷。即使使用了"定寬"字型,在大多数情况下用UTF-32計算顯示字串的寬度也并不比其他编码更加容易。主要原因是,存在著一個字符位置會有多於一種可能的碼點()或一個碼點用多於一個字符位置(如CJK表意字符)。結合符號也意味著,文書編輯者不能將一個码位視同一個編輯上的單位。 (zh)
dbo:wikiPageExternalLink
dbo:wikiPageID
  • 183928 (xsd:integer)
dbo:wikiPageLength
  • 10245 (xsd:nonNegativeInteger)
dbo:wikiPageRevisionID
  • 1114164296 (xsd:integer)
dbo:wikiPageWikiLink
dbp:wikiPageUsesTemplate
dcterms:subject
rdf:type
rdfs:comment
  • UTF-32 (taktéž UCS-4) je protokol pro kódování Unicode znaků. Tento protokol kóduje každý znak (kód nebo kódový bod sady Unicode) právě 32 bity (čtyřmi bajty). Tím vzniká přímá reprezentace znaku. Ostatní běžná kódování Unicode, používají pro zakódování jednoho znaku proměnný počet bitů. (cs)
  • UTF-32 ist eine Methode zur Kodierung von Unicode-Zeichen, bei der jedes Zeichen mit vier Byte (32 Bit) kodiert wird. Sie kann deshalb als die einfachste Kodierung bezeichnet werden, da alle anderen UTF-Kodierungen variable Bytelängen benutzen. Im Unicode Standard ist UTF-32 eine Untermenge von UCS-4. (de)
  • UTF-32 est un codage des caractères défini par Unicode où chaque caractère est codé sur un mot de 32 bits. Le codage était défini dans l’annexe 19 à la norme Unicode. Depuis, l’annexe est devenue obsolète, car UTF-32 fait partie intégrante de la norme Unicode, dans son chapitre 3 Conformance où elle est définie de façon très stricte. (fr)
  • UTF-32(およびUCS-4。を参照)は、Unicodeの各符号位置に32ビット符号単位 1つだけを使う、固定長のUnicodeの符号化形式および符号化スキームである。他の UTF(英: Unicode transformation format)はすべて符号位置によって符号単位列の長さが変化する可変長であるため、UTF-32はもっとも単純なUTFであるとみなせる。 UTF-32は、テキストファイルで使用されることは少なく、主にシステムのメモリ上での管理や、符号位置の数で管理するデータベースなどで使用される。 (ja)
  • UTF-32(32-bit Unicode Transformation Format)또는 UCS-4는 유니코드 문자 인코딩 방식의 하나이다. 이것은 모든 유니코드 문자를 같은 길이로 인코딩한다. (ko)
  • UTF-32 (32-bit Unicode Transformation Format) is a fixed-length encoding used to encode Unicode code points that uses exactly 32 bits (four bytes) per code point (but a number of leading bits must be zero as there are far fewer than 232 Unicode code points, needing actually only 21 bits). UTF-32 is a fixed-length encoding, in contrast to all other Unicode transformation formats, which are variable-length encodings. Each 32-bit value in UTF-32 represents one Unicode code point and is exactly equal to that code point's numerical value. (en)
  • UTF-32 (Unicode Transformation Format, 32 bit) è una codifica di caratteri Unicode in sequenze di numeri a 32-bit. È conosciuta anche come UCS-4 (Universal Character Set a 4 byte). A differenza delle altre codifiche Unicode (UTF-8, UTF-16) che usano una rappresentazione dei dati a lunghezza variabile, UTF-32 è a lunghezza fissa. Proprio l'uso di 4 byte per ogni carattere lo porta a non essere molto efficiente sulla gestione dello spazio. Nello specifico, i caratteri al di fuori del Basic Multilingual Plane sono così rari che per molti testi possono essere considerati come inesistenti (ai fini del calcolo della dimensione), ma questo fatto rende la dimensione del testo codificato in UTF-32 da due a quattro volte più grande rispetto alle altre codifiche. (it)
  • UTF-32 ou UCS-4 são nomes alternativos para o método de codificação de caracters, usando a quantidade fixa de exatamente 32 bits para cada caractere Unicode. Ele pode ser considerado como a forma de codificação mais simples, como todos os outros Unicode Transformation Formats (em português: Formato de Transformação Unicode) possui codificação de comprimento variável para vários code points. Por estas razões o UTF-32 é pouco utilizado na prática, com UTF-8 e UTF-16 sendo o método comum de codificar texto Unicode. (pt)
  • UTF-32 (ang. 32-bit unicode transformation format) – jeden ze sposobów kodowania znaków standardu Unicode. Sposób ten wymaga użycia 32-bitowych słów. Zestaw znaków jest też zdefiniowany w standardzie ISO 10646 jako UCS-4. Kody obejmują zakres od 0 do 0x7FFFFFFF. Kod znaku zawsze ma długość 4 bajtów i w zapisie big endian przedstawia po prostu numer znaku w tabeli Unikodu. Możliwa jest również odwrotna kolejność – w zapisie little endian, co nakłada obowiązek używania znacznika kierunku BOM. (pl)
  • UTF-32 är ett sätt att koda tecknen i Unicode, ett ”transformationsformat” (Unicode Transformation Format, UTF). UTF-32 beskriver helt enkelt att varje tecken i Unicode kodas med ett 32 bitar långt binärt tal motsvarande tecknets positionsnummer i Unicode-standarden. Att kodningen direkt motsvarar positionsnumret och att alla tecken är lika långa gör kodningen lätt att använda i datorprogram. Däremot tar den i de flesta fall mer utrymme än alternativen och används därför sällan i filer eller dataöverföring. (sv)
  • UTF-32 (англ. Unicode Transformation Format) или UCS-4 (универсальный набор символов, англ. Universal Character Set) в информатике — один из способов кодирования символов Юникода, использующий для кодирования любого символа ровно 32 бита. Остальные кодировки, UTF-8 и UTF-16, используют для представления символов переменное число байтов. Символ UTF-32 является прямым представлением его кодовой позиции (Code point). (ru)
  • UTF-32是32位Unicode转换格式(Unicode Transformation Formats, 或UTF)的缩写。UTF-32是一种用于编码Unicode的协定,该协定使用32位比特对每个Unicode码位进行编码(但前导比特数必须为零,故仅能表示231个Unicode码位)。与其他可变长度的Unicode转换格式(UTF)相比,UTF-32编码长度是固定的,UTF-32中的每个32位值代表一个Unicode码位,并且与该码位的数值完全一致。 UTF-32的主要优点是可以直接由Unicode码位来索引。在编码序列中查找第N个编码是一个常数时间操作。相比之下,其他可变长度编码需要进行循序存取操作才能在编码序列中找到第N个编码。这使得在计算机程序设计中,编码序列中的字符位置可以用一个整数来表示,整数加一即可得到下一个字符的位置,就和ASCII字符串一样简单。 UTF-32的主要缺点是每个码位使用四个字节,空间浪费较多。在大多数文本中,非基本多文種平面的字符非常罕见,这使得UTF-32所需空间接近UTF-16的两倍和UTF-8的四倍(具体取决于文本中ASCII字符的比例)。 (zh)
  • UTF-32 (англ. Unicode Transformation Format) або UCS-4 (універсальний набір символів, англ. Universal Character Set) в інформатиці — один зі способів кодування символів Юнікоду, який використовує для кодування будь-якого символу рівно 32 біти. Інші кодування, UTF-8 і UTF-16, використовують для подання символів змінну кількість байтів. Символ UTF-32 є прямим поданням його (uk)
rdfs:label
  • UTF-32 (cs)
  • UTF-32 (de)
  • UTF-32 (fr)
  • UTF-32 (it)
  • UTF-32 (ko)
  • UTF-32 (ja)
  • UTF-32/UCS-4 (pl)
  • UTF-32/UCS-4 (pt)
  • UTF-32 (ru)
  • UTF-32 (en)
  • UTF-32 (sv)
  • UTF-32 (uk)
  • UTF-32 (zh)
owl:sameAs
prov:wasDerivedFrom
foaf:isPrimaryTopicOf
is dbo:wikiPageDisambiguates of
is dbo:wikiPageRedirects of
is dbo:wikiPageWikiLink of
is foaf:primaryTopic of
Powered by OpenLink Virtuoso    This material is Open Knowledge     W3C Semantic Web Technology     This material is Open Knowledge    Valid XHTML + RDFa
This content was extracted from Wikipedia and is licensed under the Creative Commons Attribution-ShareAlike 3.0 Unported License