This HTML5 document contains 476 embedded RDF statements represented using HTML+Microdata notation.

The embedded RDF content will be recognized by any processor of HTML5 Microdata.

Namespace Prefixes

PrefixIRI
dbthttp://dbpedia.org/resource/Template:
n50http://dbpedia.org/resource/X/
dbpedia-dahttp://da.dbpedia.org/resource/
dbpedia-elhttp://el.dbpedia.org/resource/
n9https://web.archive.org/web/20171130213601/http:/www.user.uni-hannover.de/nhtcapri/
n76http://bn.dbpedia.org/resource/
dbpedia-nohttp://no.dbpedia.org/resource/
dbpedia-svhttp://sv.dbpedia.org/resource/
wikipedia-enhttp://en.wikipedia.org/wiki/
dbpedia-bghttp://bg.dbpedia.org/resource/
dbrhttp://dbpedia.org/resource/
n24http://www.tldp.org/HOWTO/
dbpedia-hrhttp://hr.dbpedia.org/resource/
dbpedia-mshttp://ms.dbpedia.org/resource/
dbpedia-arhttp://ar.dbpedia.org/resource/
dbpedia-hehttp://he.dbpedia.org/resource/
n15http://ml.dbpedia.org/resource/
dbpedia-frhttp://fr.dbpedia.org/resource/
n32http://commons.wikimedia.org/wiki/Special:FilePath/
n69http://dbpedia.org/resource/Input/
dctermshttp://purl.org/dc/terms/
dbpedia-cshttp://cs.dbpedia.org/resource/
rdfshttp://www.w3.org/2000/01/rdf-schema#
n68https://web.archive.org/web/20000917055036/http:/plan9.bell-labs.com/sys/doc/
n37http://www.user.uni-hannover.de/nhtcapri/
rdfhttp://www.w3.org/1999/02/22-rdf-syntax-ns#
dbpedia-azhttp://az.dbpedia.org/resource/
n20http://lv.dbpedia.org/resource/
n28http://dbpedia.org/resource/File:
dbphttp://dbpedia.org/property/
dbpedia-eohttp://eo.dbpedia.org/resource/
dbpedia-euhttp://eu.dbpedia.org/resource/
n7http://ur.dbpedia.org/resource/
xsdhhttp://www.w3.org/2001/XMLSchema#
dbpedia-ukhttp://uk.dbpedia.org/resource/
dbpedia-idhttp://id.dbpedia.org/resource/
dbpedia-srhttp://sr.dbpedia.org/resource/
dbohttp://dbpedia.org/ontology/
n27http://linked-web-apis.fit.cvut.cz/resource/
n16https://www.cl.cam.ac.uk/~mgk25/ucs/
dbpedia-vihttp://vi.dbpedia.org/resource/
dbpedia-pthttp://pt.dbpedia.org/resource/
dbpedia-huhttp://hu.dbpedia.org/resource/
dbpedia-skhttp://sk.dbpedia.org/resource/
dbpedia-jahttp://ja.dbpedia.org/resource/
n53https://wiki.gentoo.org/wiki/
dbchttp://dbpedia.org/resource/Category:
dbpedia-plhttp://pl.dbpedia.org/resource/
dbpedia-dehttp://de.dbpedia.org/resource/
dbpedia-ruhttp://ru.dbpedia.org/resource/
yagohttp://dbpedia.org/class/yago/
wikidatahttp://www.wikidata.org/entity/
n41http://dbpedia.org/resource/ISO/
dbpedia-nlhttp://nl.dbpedia.org/resource/
n73http://cv.dbpedia.org/resource/
goldhttp://purl.org/linguistics/gold/
n18https://global.dbpedia.org/id/
yago-reshttp://yago-knowledge.org/resource/
n21http://www.w3.org/2001/06/utf-8-test/
dbpedia-slhttp://sl.dbpedia.org/resource/
n39http://www.unicode.org/versions/latest/
dbpedia-ithttp://it.dbpedia.org/resource/
n26http://dbpedia.org/resource/Non-blocking_I/
dbpedia-cahttp://ca.dbpedia.org/resource/
provhttp://www.w3.org/ns/prov#
n72http://bs.dbpedia.org/resource/
dbpedia-nnhttp://nn.dbpedia.org/resource/
foafhttp://xmlns.com/foaf/0.1/
dbpedia-zhhttp://zh.dbpedia.org/resource/
n74http://titus.uni-frankfurt.de/indexe.htm%3F/unicode/
dbpedia-kohttp://ko.dbpedia.org/resource/
n51http://lt.dbpedia.org/resource/
n43http://doc.cat-v.org/plan_9/4th_edition/papers/
dbpedia-fahttp://fa.dbpedia.org/resource/
dbpedia-trhttp://tr.dbpedia.org/resource/
freebasehttp://rdf.freebase.com/ns/
dbpedia-eshttp://es.dbpedia.org/resource/
n60http://www.cl.cam.ac.uk/~mgk25/
owlhttp://www.w3.org/2002/07/owl#

Statements

Subject Item
dbr:UTF-8
rdf:type
yago:Encoding100615887 yago:Activity100407535 yago:CharacterSet106488880 yago:Communication100033020 yago:Act100030358 yago:Cryptography100614489 yago:WikicatCharacterSets yago:Event100029378 yago:PsychologicalFeature100023100 yago:Writing100614224 yago:Database106637824 yago:Abstraction100002137 yago:WikicatUnicodeTransformationFormats dbo:FictionalCharacter yago:Message106598915 yago:YagoPermanentlyLocatedEntity yago:List106481320 yago:Information106634376 dbo:Language yago:WikicatEncodings yago:Format106636806 owl:Thing
rdfs:label
UTF-8 UTF-8 UTF-8 UTF-8 UTF-8 UTF-8 UTF-8 UTF-8 UTF-8 UTF-8 UTF-8 UTF-8 UTF-8 صيغة التحويل الموحد-8 UTF-8 UTF-8 UTF-8 UTF-8 UTF-8 UTF-8 UTF-8
rdfs:comment
UTF-8 is a variable-length character encoding used for electronic communication. Defined by the Unicode Standard, the name is derived from Unicode (or Universal Coded Character Set) Transformation Format – 8-bit. UTF-8 is the dominant encoding for the World Wide Web (and internet technologies), accounting for 98.0% of all web pages, and up to 100.0% for many languages, as of 2022. UTF-8 (åtta-bitars Unicode transformationsformat) är en längdvarierande teckenkodning som används för att representera text kodad i Unicode, som en sekvens av byte (oktetter). Unicode använder upp till 21 bitar per tecken, vilket inte får plats i en byte, och därför används till exempel i textfiler vanligen en av metoderna UTF-8 eller UTF-16 för att få en serie bytes. UTF-8 har valts som huvudsaklig teckenkodning i internetprotokoll: nya protokoll måste ge stöd till denna teckenkodning, om det inte av speciella skäl är olämpligt. UTF-8 (8-bit Unicode Transformation Format) é um tipo de codificação binária (Unicode) de comprimento variável criado por Ken Thompson e Rob Pike. Pode representar qualquer caractere universal padrão do Unicode, sendo também compatível com o ASCII. Por esta razão, está lentamente a ser adaptado como tipo de codificação padrão para e-mail, páginas web, e outros locais onde os caracteres são armazenados. UTF-8 (8-bit Unicode Transformation Format) is een manier om Unicode/ISO 10646-tekens op te slaan als een stroom van bytes, een zogenaamde tekencodering. Alternatieven zijn UTF-16 en . UTF-8 is een tekencodering met variabele lengte: niet elk teken gebruikt evenveel bytes. Afhankelijk van het teken worden 1 tot 4 bytes gebruikt. Voor de 128 ASCII-tekens is slechts één byte nodig, waarvan de numerieke waarde gelijk is aan de ASCII-code. Voor alle andere tekens zijn twee of meer bytes nodig. UTF-8 (Unicode Transformation Format, 8 bit) è una codifica di caratteri Unicode in sequenze di lunghezza variabile di byte, creata da Rob Pike e Ken Thompson. UTF-8 usa gruppi di byte per rappresentare i caratteri Unicode, ed è particolarmente utile per il trasferimento tramite sistemi di posta elettronica a 8-bit. UTF-8 (ang. 8-bit Unicode Transformation Format) – system kodowania Unicode, wykorzystujący od 1 do 4 bajtów do zakodowania pojedynczego znaku, w pełni kompatybilny z ASCII. Jest najczęściej wykorzystywany do przechowywania napisów w plikach i komunikacji sieciowej. صيغة التحويل الموحد-8 (بالإنجليزية: UTF-8)‏ هي اختصار للمصطلح (8-bit Unicode Transformation Format) الذي يترجم إلى صيغة تحويل نظام الحروف الدولي الموحد بقوة 8 بت. هذا الترميز وضع من قبل كل من روب بايك وكين تومسن لتمثيل معيار نظام الحروف الدولي الموحد للحروف الأبجدية لأغلب لغات العالم، ويتم تشفير الرموز فيه في حجم يتراوح بين بايت واحد وأربعة بايت للرمز الواحد. Το UTF-8 (8-bit Unicode Transformation Format) είναι μη-απωλεστικό σχήμα κωδικοποίησης χαρακτήρων μεταβλητού μήκους για το πρότυπο Unicode που δημιουργήθηκε από τους Ken Thompson και Rob Pike. Χρησιμοποιεί ομάδες από byte για να αναπαραστήσει τα κωδικά σημεία του Unicode. Είναι ιδιαίτερα χρήσιμο για μετάδοση δεδομένων σε 8bit συστήματα ηλεκτρονικού ταχυδρομείου. Η IETF (Internet Engineering Task Force) απαιτεί όλα τα πρωτόκολλα Διαδικτύου να αναγνωρίζουν και να υποστηρίζουν τουλάχιστον ως σχήμα κωδικοποίησης χαρακτήρων τουλάχιστον το UTF-8. UTF-8은 유니코드를 위한 가변 길이 문자 인코딩 방식 중 하나로, 켄 톰프슨과 롭 파이크가 만들었다. UTF-8은 Universal Coded Character Set + Transformation Format – 8-bit의 약자이다. 본래는 FSS-UTF(File System Safe UCS/Unicode Transformation Format)라는 이름으로 제안되었다. UTF-8 (від англ. Unicode Transformation Format — формат перетворення Юнікоду) — кодування, що реалізовує представлення Юнікоду, сумісне з 8-бітовим кодуванням тексту. Текст, що складається тільки з символів, коди яких менші ніж 128, при записі в UTF-8 перетворюється на звичайний текст ASCII. І навпаки, в тексті UTF-8 будь-який байт із значенням менше, ніж 128 зображає символ ASCII з тим же кодом. Решта символів Юнікоду зображається послідовностями завдовжки від 2 до 6 байтів (реально тільки до 4 байтів, оскільки використання кодів більших, ніж 221 не планується), в яких перший байт завжди має вид 11xxxxxx, а решта — 10xxxxxx. Простіше кажучи, у форматі UTF-8 символи латинського алфавіту, розділові знаки і символи управління ASCII записуються кодами US-ASCII, а решта символів кодується за д UTF-8 (zkratka pro UCS/Unicode Transformation Format) je jedním ze způsobů kódování znaků, tedy přiřazení číselných kódů znakové sadě (písmenům abecedy a dalším znakům) pro potřeby počítačového zpracování textů. Představuje rozšířený mezinárodní standard dle norem Unicode/ISO/IEC 10646 a dominantní způsob kódování na internetovém webu, který umožňuje ukládat a zobrazovat texty s použitím široké palety světových písem. UTF-8 (abréviation de l'anglais Universal Character Set Transformation Format - 8 bits) est un codage de caractères informatiques conçu pour coder l'ensemble des caractères du « répertoire universel de caractères codés », initialement développé par l'ISO dans la norme internationale ISO/CEI 10646, aujourd'hui totalement compatible avec le standard Unicode, en restant compatible avec la norme ASCII limitée à l'anglais de base, mais très largement répandue depuis des décennies. UTF-8 estas kodoprezento, maniero prezenti unikodajn signonumerojn per sinsekvo da bajtoj. Ĝia nomo devenas de la anglalingva mallongigo Unicode Transformation Format (unikoda transforma aranĝo). La nombro "8" indikas la fakton, ke la signonumerojn oni malkomponas en 8-bitajn bajtojn, bitokojn.Tia perbajta kodoprezento havas varian longon, de 1 ĝis 4 bajtoj. UTF-8 estas difinita en la normo . Principe ĝia skemo povas uzi ĝis 6 bitokojn por unu signo, sed la Unikodaj signonumeroj ne superas 17·216, kaj por tiuj sufiĉas 4 bitokoj. UTF-8 (Abkürzung für 8-Bit UCS Transformation Format, wobei UCS wiederum Universal Coded Character Set abkürzt) ist die am weitesten verbreitete Kodierung für Unicode-Zeichen (Unicode und UCS sind praktisch identisch). Die Kodierung wurde im September 1992 von Ken Thompson und Rob Pike bei Arbeiten am Plan-9-Betriebssystem festgelegt. Sie wurde zunächst im Rahmen von X/Open als FSS-UTF bezeichnet (filesystem safe UTF in Abgrenzung zu UTF-1, das diese Eigenschaft nicht hat), in den Folgejahren erfolgte im Rahmen der Standardisierung die Umbenennung auf die heute übliche Bezeichnung UTF-8. Informatikan, UTF-8 (8 biteko Unicode Transformazio Formatua) testuetako karaktereak kodetzeko modu bat da. Munduan zehar erabiltzen diren alfabeto guztiak erabiltzeko aukera ematen du (latindar alfabetoa, grekoak, ziriliko‎, arabiarra... UNICODEko kodetze-modua erabiliena da gaur egunean. UTF-8 Weberako bereziki kodeketa ohikoena da, baita bigarrena baina askoz gehiago erabilia ere. 2020an Web orrialde guztien %95 baino gehiago dira UTF-8-rekin kodetuta daudenak. Are gehiago, % 100-ra arte ailegatu zen 2020an hizkuntza batzuetarako. UTF-8(8-bit Unicode Transformation Format)是一種針對Unicode的可變長度字元編碼,也是一种前缀码。它可以用一至四个字节对Unicode字符集中的所有有效编码点进行编码,属于Unicode标准的一部分,最初由肯·汤普逊和提出。由于较小值的编码点一般使用频率较高,直接使用Unicode编码效率低下,大量浪费内存空间。UTF-8就是为了解决向后兼容ASCII码而设计,Unicode中前128个字符,使用与ASCII码相同的二进制值的单个字节进行编码,而且字面与ASCII码的字面一一对应,這使得原來處理ASCII字元的軟體無須或只須做少部份修改,即可繼續使用。因此,它逐漸成為電子郵件、網頁及其他儲存或傳送文字優先採用的編碼方式。 UTF-8(ユーティーエフはち、ユーティーエフエイト)はISO/IEC 10646 (UCS) とUnicodeで使える8ビット符号単位(1〜4バイトの可変長)の文字符号化形式および文字符号化スキーム。 正式名称は、ISO/IEC 10646では “UCS Transformation Format 8”、Unicodeでは “Unicode Transformation Format-8” という。両者はISO/IEC 10646とUnicodeのコード重複範囲で互換性がある。RFCにも仕様がある。 2バイト目以降に「/」などのASCII文字が現れないように工夫されていることから、UTF-FSS (File System Safe) ともいわれる。旧名称はUTF-2。 UTF-8は、データ交換方式・ファイル形式として一般的に使われる傾向にある。 当初は、ベル研究所においてPlan 9で用いるエンコードとして、ロブ・パイクによる設計指針のもと、ケン・トンプソンによって考案された。 UTF-8 (8-bit Unicode Transformation Format) és una normativa de codificació de caràcters, per Unicode. UTF-8 (8-bit Unicode Transformation Format) es un formato de codificación de caracteres Unicode e ISO 10646 que utiliza símbolos de longitud variable. UTF-8 fue creado por Robert C. Pike y Kenneth L. Thompson. Está definido como estándar por la <RFC 3629> de la Internet Engineering Task Force (IETF).​ Actualmente es una de las tres posibilidades de codificación reconocidas por Unicode y lenguajes web, o cuatro en ISO 10646. Sus características principales son: UTF-8 (от англ. Unicode Transformation Format, 8-bit — «формат преобразования Юникода, 8-бит») — распространённый стандарт кодирования символов, позволяющий более компактно хранить и передавать символы Юникода, используя переменное количество байт (от 1 до 4), и обеспечивающий полную обратную совместимость с 7-битной кодировкой ASCII. Стандарт UTF-8 официально закреплён в документах RFC 3629 и ISO/IEC 10646 Annex D. Кодировка UTF-8 сейчас является доминирующей в веб-пространстве. Она также нашла широкое применение в UNIX-подобных операционных системах. UTF-8 (Universal Character Set (UCS) Transformation Format — 8-bit) adalah sebuah pengkodean karakter dengan lebar variabel tertentu (variable-width encoding) yang mewakili setiap karakter komputer (character) dalam himpunan karakter Unicode. Didesain untuk backward compatibility dengan ASCII dan untuk menghindari komplikasi endianness dan byte order mark dalam UTF-16 dan UTF-32.
rdfs:seeAlso
dbr:Comparison_of_Unicode_encodings dbr:Universal_Coded_Character_Set dbr:Popularity_of_text_encodings
dbp:name
UTF-8
foaf:depiction
n32:Utf8webgrowth.svg n32:UTF-8_takes_over.png
dcterms:subject
dbc:Character_encoding dbc:Computer-related_introductions_in_1993 dbc:Encodings dbc:Unicode_Transformation_Formats
dbo:wikiPageID
32188
dbo:wikiPageRevisionID
1124203220
dbo:wikiPageWikiLink
dbr:ASCII dbr:Caret dbr:Minus_sign dbr:@ dbr:Byte-oriented_protocol dbr:8 dbr:Form_feed dbr:Cascading_Style_Sheets dbr:File_separator dbr:Byte dbr:Alt_code dbr:Byte_order_mark dbr:Variable-width_encoding dbr:Python_(language) dbr:Windows dbr:End_of_medium dbr:Python_(programming_language) dbr:Microsoft_Visual_Studio dbr:Internet_Mail_Consortium dbr:Glossary_of_mathematical_symbols dbc:Character_encoding dbr:L dbr:Microsoft_Windows dbr:Parenthesis dbr:Path_(computing) dbr:Ruby_(programming_language) dbr:U dbr:CP1252 dbr:Group_separator dbr:Arabic_Supplement dbr:Hexadecimal dbr:XML dbr:Request_for_Comments dbr:X dbr:Latin_Extended-A dbr:Latin_Extended-B dbr:End-of-Text_character dbr:Z dbr:Cancel_character dbr:End-of-Transmission_character dbr:Rust_(programming_language) dbr:Unicode_Consortium dbr:Unicode_Standard dbr:Xbox dbr:Unicode_Transformation_Format dbr:Unicode_and_HTML dbr:World_Wide_Web_Consortium dbr:US-ASCII dbr:Class_(file_format) dbr:9 dbr:Code_point dbr:A dbr:Greek_and_Coptic dbr:N'Ko_script dbr:Oracle_Database dbr:End_of_transmission_block dbr:R dbr:Arabic_(Unicode_block) dbr:Negative-acknowledge_character dbr:Cyrillic_script dbr:MirBSD dbr:Carriage_return dbr:Cross-site_scripting dbr:Exclamation_mark dbr:Environment_variable n26:O_(Java) dbr:HTTP_headers dbr:Mojibake dbr:Telnet dbr:Microsoft_Word dbr:Enquiry_character dbr:Colon_(punctuation) dbr:H n28:UTF-8_takes_over.png dbr:String_literal dbr:Octal dbr:Tilde dbr:4 dbr:3 dbr:Universal_Character_Set dbr:Vertical_tab dbr:Greek_alphabet dbr:Null_character dbr:W dbr:Backslash dbr:Basic_Multilingual_Plane dbr:Hangul dbr:Supplementary_Special-purpose_Plane dbr:Underscore dbr:Data_truncation dbr:Acknowledge_character dbr:G dbr:V dbr:WHATWG dbr:Hwair dbr:7 dbr:Arabic_alphabet dbr:Character_encoding dbr:Placemat dbr:Unit_separator dbr:International_Organization_for_Standardization dbr:Printer_Command_Language dbr:Windows_code_page dbr:Addendum dbr:S dbr:Internet_Engineering_Task_Force dbr:Tab_key dbr:Denial_of_service dbr:K dbr:Supplementary_Multilingual_Plane dbr:Start_of_heading dbr:Start_of_text dbr:NKo_(Unicode_block) dbr:Equals_sign dbr:Hangul_Syllables dbr:String-searching_algorithm dbr:Windows_7 dbr:Bell_character dbr:6 dbr:Number_sign dbr:Semicolon dbr:World_Wide_Web dbr:JSON dbc:Computer-related_introductions_in_1993 dbr:Backspace dbr:Private_Use_Areas dbr:Internet_Assigned_Numbers_Authority dbr:Long-term_support dbr:International_Phonetic_Alphabet n41:IEC_8859-1 dbr:Julia_(programming_language) dbr:Data_link_escape dbr:Rob_Pike dbr:Delete_character dbr:Device_Control_1 dbr:Device_Control_2 dbr:Device_Control_3 dbr:UCS-2 dbr:Device_Control_4 dbr:I dbr:IBM dbr:Operating_system dbr:R_(programming_language) dbr:Synchronous_idle dbr:F dbr:N dbr:J dbr:JavaScript dbr:GB_18030 dbr:GB_2312 dbr:Armenian_alphabet dbr:Bitwise_operation dbr:D dbr:Bitstream dbr:Unix dbc:Encodings dbr:Internet_Information_Services dbr:Devanagari dbr:Square_brackets n50:Open dbr:Less-than_sign dbr:5 dbr:Dalvik_(software) dbr:E dbr:Microsoft_Excel dbr:1 dbr:Space_character dbr:Prefix_code dbr:Backward_compatibility dbr:Line_feed dbr:Octet_(computing) dbr:Swift_(programming_language) dbr:Latin-1_Supplement_(Unicode_block) dbr:Replacement_character dbr:Plan_9_from_Bell_Labs dbr:UTF-1 dbr:PyPy dbr:UTF-16 dbr:Plus_sign dbr:2 dbr:Devanagari_(Unicode_block) dbr:Java_(programming_language) dbr:O dbr:UTF-EBCDIC dbr:Substitute_character dbr:Phonetic_symbols_in_Unicode dbr:Web_browser dbr:Unix_System_Laboratories dbr:San_Diego dbr:MySQL dbr:B dbr:Windows_XP dbr:Syriac_alphabet dbr:Euro_sign dbr:CESU-8 dbr:Record_separator dbr:Question_mark dbr:Null-terminated_string dbr:Latin-1 dbr:P dbr:Syriac_(Unicode_block) dbc:Unicode_Transformation_Formats dbr:Qt_(software) dbr:Slash_(punctuation) dbr:Extended_ASCII dbr:Unicode_and_HTML_for_the_Hebrew_alphabet dbr:Ken_Thompson dbr:Java_Native_Interface n28:Utf8webgrowth.svg dbr:USENIX dbr:T dbr:Thai_alphabet dbr:C++20 dbr:Private_Use_Area dbr:Character_encodings_in_HTML dbr:Hebrew_alphabet dbr:Self-synchronizing_code dbr:Comma_(punctuation) dbr:Q dbr:Quotation_mark dbr:Escape_character dbr:Thaana_(Unicode_block) dbr:Greater-than_sign n69:output dbr:IPA_Extensions dbr:Full_stop dbr:Unicode_in_Microsoft_Windows dbr:Tcl dbr:32-bit_computing dbr:Percent_sign dbr:Regional_indicator_symbol dbr:Latin-script_alphabet dbr:Shift_in dbr:Emoji dbr:Cyrillic_Supplement dbr:Tokenize dbr:Data_corruption dbr:Microsoft_Game_Development_Kit dbr:Vertical_bar dbr:Iconv dbr:Universal_Character_Set_characters dbr:Combining_Diacritical_Marks dbr:Bell_Labs dbr:Ampersand dbr:Specials_(Unicode_block) dbr:Unicode_and_email dbr:Shift_out dbr:Combining_character dbr:Single_Byte_Character_Set dbr:C dbr:Code_page dbr:Pound_sign dbr:Apostrophe dbr:Asterisk dbr:Java_serialization dbr:Dollar_sign n41:IEC_10646 dbr:Comparison_of_Unicode_encodings dbr:Plane_(Unicode) dbr:Document_Object_Model dbr:Go_(programming_language) dbr:CJK_Unified_Ideographs dbr:Y dbr:Curly_brackets dbr:HTML dbr:CJK_characters dbr:Unicode_equivalence dbr:HTML5 dbr:%60 dbr:Cyrillic_(Unicode_block) dbr:Coptic_alphabet dbr:Unicode dbr:M dbr:Thaana dbr:0
dbo:wikiPageExternalLink
n16:utf-8-history.txt n21:UTF-8-demo.html n24:Unicode-HOWTO.html n37:multilingual1.html n39: n43:utf n53:UTF-8 n60:unicode.html n68:utf.pdf n74:unitest.htm n9:multilingual1.html
owl:sameAs
dbpedia-sk:UTF-8 n7:یو_ٹی_ایف-8 dbpedia-el:UTF-8 dbpedia-sr:UTF-8 n15:യു.ടി.എഫ്-8 n18:rnGT dbpedia-ca:UTF-8 n20:UTF-8 dbpedia-vi:UTF-8 dbpedia-ja:UTF-8 yago-res:UTF-8 n27:utf-8_format dbpedia-he:UTF-8 dbpedia-es:UTF-8 dbpedia-bg:UTF-8 dbpedia-id:UTF-8 dbpedia-it:UTF-8 dbpedia-az:UTF-8 dbpedia-zh:UTF-8 dbpedia-tr:UTF-8 dbpedia-de:UTF-8 dbpedia-no:UTF-8 dbpedia-pt:UTF-8 dbpedia-ko:UTF-8 dbpedia-fr:UTF-8 dbpedia-eu:UTF-8 n51:UTF-8 dbpedia-da:UTF-8 dbpedia-ar:صيغة_التحويل_الموحد-8 dbpedia-sv:UTF-8 dbpedia-sl:UTF-8 dbpedia-cs:UTF-8 dbpedia-ru:UTF-8 dbpedia-eo:UTF-8 dbpedia-ms:UTF-8 dbpedia-hu:UTF-8 dbpedia-pl:UTF-8 wikidata:Q193537 dbpedia-uk:UTF-8 freebase:m.07x89 dbpedia-nl:UTF-8 n72:UTF-8 n73:UTF-8 dbpedia-nn:UTF-8 n76:ইউটিএফ-৮ dbpedia-fa:یوتی‌اف-۸ dbpedia-hr:UTF-8
dbp:wikiPageUsesTemplate
dbt:Anchor dbt:Reflist dbt:Chset-left1 dbt:As_of dbt:Chset-ctrl1 dbt:Character_encoding dbt:Unicode_navigation dbt:Chset-cell1 dbt:Mono dbt:Refs dbt:Webarchive dbt:Main dbt:Ken_Thompson_navbox dbt:Nbsp dbt:Short_description dbt:Code dbt:Snd dbt:IETF_RFC dbt:Infobox_character_encoding dbt:Citation_needed dbt:Rob_Pike_navbox dbt:Pipe dbt:Trivia dbt:See_also dbt:Section_link dbt:Cn dbt:YouTube dbt:= dbt:Fontcolor dbt:Legend
dbo:thumbnail
n32:UTF-8_takes_over.png?width=300
dbp:classification
dbr:Unicode_Transformation_Format dbr:Variable-width_encoding dbr:Extended_ASCII
dbp:date
2017-11-30
dbp:id
MijmeoH9LT4
dbp:prev
dbr:UTF-1
dbp:standard
n39:
dbp:title
Characters, Symbols and the Unicode Miracle
dbp:url
n9:multilingual1.html
dbo:abstract
Το UTF-8 (8-bit Unicode Transformation Format) είναι μη-απωλεστικό σχήμα κωδικοποίησης χαρακτήρων μεταβλητού μήκους για το πρότυπο Unicode που δημιουργήθηκε από τους Ken Thompson και Rob Pike. Χρησιμοποιεί ομάδες από byte για να αναπαραστήσει τα κωδικά σημεία του Unicode. Είναι ιδιαίτερα χρήσιμο για μετάδοση δεδομένων σε 8bit συστήματα ηλεκτρονικού ταχυδρομείου. Συγκεκριμένα χρησιμοποιεί ένα μέχρι τέσσερα byte ανά χαρακτήρα ανάλογα με το σύμβολο και το κωδικό του σημείο. Για παράδειγμα χρειάζεται μόνο ένα byte του UTF-8 για την κωδικοποίηση των 128 ASCII χαρακτήρων στο διάστημα του Unicode U+0000 μέχρι U+007F. Τέσσερα byte μπορεί να φαίνονται πολλά για έναν χαρακτήρα (κωδικό σημείο), παρ'όλα αυτά αυτό αφορά μόνο κωδικά σημεία εκτός του , τα οποία σπάνια χρησιμοποιούνται. Επίσης το (το κύριο εναλλακτικό σχήμα στο UTF-8) επίσης χρειάζεται τέσσερα byte για αυτά τα κωδικά σημεία. Το πιο είναι αποδοτικότερο το UTF-8 ή το UTF-16, εξαρτάται από το εύρος των κωδικών σημείων που θα χρησιμοποιηθούν. Οι διαφορές των δυο σχημάτων μπορούν όμως να γίνουν αμελητέες με την χρήση παραδοσιακών συστημάτων συμπίεσης όπως . Για μικρά κομμάτια κειμένου όπου οι παραδοσιακοί αλγόριθμοι δεν αποδίδουν καλά και όπου το μέγεθος του αρχείου μετράει μπορεί να χρησιμοποιηθεί και το . Η IETF (Internet Engineering Task Force) απαιτεί όλα τα πρωτόκολλα Διαδικτύου να αναγνωρίζουν και να υποστηρίζουν τουλάχιστον ως σχήμα κωδικοποίησης χαρακτήρων τουλάχιστον το UTF-8. UTF-8은 유니코드를 위한 가변 길이 문자 인코딩 방식 중 하나로, 켄 톰프슨과 롭 파이크가 만들었다. UTF-8은 Universal Coded Character Set + Transformation Format – 8-bit의 약자이다. 본래는 FSS-UTF(File System Safe UCS/Unicode Transformation Format)라는 이름으로 제안되었다. UTF-8 인코딩은 유니코드 한 문자를 나타내기 위해 1바이트에서 4바이트까지를 사용한다. 예를 들어서, U+0000부터 U+007F 범위에 있는 ASCII 문자들은 UTF-8에서 1바이트만으로 표시된다. 4바이트로 표현되는 문자는 모두 기본 다국어 평면(BMP) 바깥의 유니코드 문자이며, 거의 사용되지 않는다. UTF-16과 UTF-8 중 어느 인코딩이 더 적은 바이트를 사용하는지는 문자열에서 사용된 코드 포인트에 따라 달라지며, 실제로 DEFLATE와 같은 일반적인 압축 알고리즘을 사용할 경우 이 차이는 무시할 수 있을 정도이다. 이러한 압축 알고리즘을 사용하기 힘들고 크기가 중요할 경우 (Standard Compression Scheme for Unicode)을 대신 사용할 수 있다. UTF-8 (Universal Character Set (UCS) Transformation Format — 8-bit) adalah sebuah pengkodean karakter dengan lebar variabel tertentu (variable-width encoding) yang mewakili setiap karakter komputer (character) dalam himpunan karakter Unicode. Didesain untuk backward compatibility dengan ASCII dan untuk menghindari komplikasi endianness dan byte order mark dalam UTF-16 dan UTF-32. UTF-8 telah menjadi metode pengkodean karakter (character encoding) yang dominan untuk World Wide Web, meliputi lebih dari setengah jumlah seluruh halaman Web. Internet Engineering Task Force (IETF) mengharuskan semua protokol Internet untuk mengidentifikasi encoding yang dipakai untuk data karakter, dan pengkodean karakter yang didukung (supported character encoding) untuk menyertakan UTF-8. Internet Mail Consortium (IMC) merekomendasi seluruh program e-mail dapat menayangkan dan membuat e-mail menggunakan UTF-8. UTF-8 juga terus meningkat penggunaannya sebagai default character encoding dalam sistem operasi, bahasa pemrograman, API, dan aplikasi perangkat lunak. UTF-8 estas kodoprezento, maniero prezenti unikodajn signonumerojn per sinsekvo da bajtoj. Ĝia nomo devenas de la anglalingva mallongigo Unicode Transformation Format (unikoda transforma aranĝo). La nombro "8" indikas la fakton, ke la signonumerojn oni malkomponas en 8-bitajn bajtojn, bitokojn.Tia perbajta kodoprezento havas varian longon, de 1 ĝis 4 bajtoj. UTF-8 estas difinita en la normo . Principe ĝia skemo povas uzi ĝis 6 bitokojn por unu signo, sed la Unikodaj signonumeroj ne superas 17·216, kaj por tiuj sufiĉas 4 bitokoj. UTF-8 sekvas la principon, ke la komenca bitoko de signonumero estu klare rekonebla. Tial eblas malkodi kodoprezenton de signoĉeno ne nur ekde la komenco, sed de ajna ties pozicio. Tio funkcias, ĉar la unua bitoko en signonumero neniam komenciĝas per la bitoj "10", sed la sekvaj bitokoj ĉiam. Krome, la unua bitoko klare indikas, kiom da bitokoj havas la prezento de signonumero — nome tiom, kiom da unuoj (kiom da bitoj "1") aperas komence de la unua bitoko. Escepto estas la unubajtaj prezentoj de signonumeroj, kiuj komenciĝas per "0". UTF-8 (ang. 8-bit Unicode Transformation Format) – system kodowania Unicode, wykorzystujący od 1 do 4 bajtów do zakodowania pojedynczego znaku, w pełni kompatybilny z ASCII. Jest najczęściej wykorzystywany do przechowywania napisów w plikach i komunikacji sieciowej. UTF-8 (abréviation de l'anglais Universal Character Set Transformation Format - 8 bits) est un codage de caractères informatiques conçu pour coder l'ensemble des caractères du « répertoire universel de caractères codés », initialement développé par l'ISO dans la norme internationale ISO/CEI 10646, aujourd'hui totalement compatible avec le standard Unicode, en restant compatible avec la norme ASCII limitée à l'anglais de base, mais très largement répandue depuis des décennies. L'UTF-8 est utilisé par 82,2 % des sites web en décembre 2014, 87,6 % en 2016, 90,5 % en 2017, 93,1 % en février 2019 et près de 95,2 % en octobre 2020. Par sa nature, UTF-8 est d'un usage de plus en plus courant sur Internet, et dans les systèmes devant échanger de l'information. Il s'agit également du codage le plus utilisé dans les systèmes GNU/Linux et compatibles pour gérer le plus simplement possible des textes et leurs traductions dans tous les systèmes d'écritures et tous les alphabets du monde. UTF-8 (8-bit Unicode Transformation Format) is een manier om Unicode/ISO 10646-tekens op te slaan als een stroom van bytes, een zogenaamde tekencodering. Alternatieven zijn UTF-16 en . UTF-8 is een tekencodering met variabele lengte: niet elk teken gebruikt evenveel bytes. Afhankelijk van het teken worden 1 tot 4 bytes gebruikt. Voor de 128 ASCII-tekens is slechts één byte nodig, waarvan de numerieke waarde gelijk is aan de ASCII-code. Voor alle andere tekens zijn twee of meer bytes nodig. Vóór de komst van Unicode gebruikten veel landen een uitbreiding op de ASCII-tekenset met taalspecifieke tekens in de posities 128-255. UTF-8 (Abkürzung für 8-Bit UCS Transformation Format, wobei UCS wiederum Universal Coded Character Set abkürzt) ist die am weitesten verbreitete Kodierung für Unicode-Zeichen (Unicode und UCS sind praktisch identisch). Die Kodierung wurde im September 1992 von Ken Thompson und Rob Pike bei Arbeiten am Plan-9-Betriebssystem festgelegt. Sie wurde zunächst im Rahmen von X/Open als FSS-UTF bezeichnet (filesystem safe UTF in Abgrenzung zu UTF-1, das diese Eigenschaft nicht hat), in den Folgejahren erfolgte im Rahmen der Standardisierung die Umbenennung auf die heute übliche Bezeichnung UTF-8. UTF-8 ist in den ersten 128 Zeichen (Indizes 0–127) deckungsgleich mit ASCII und eignet sich mit in der Regel nur einem Byte Speicherbedarf für Zeichen vieler westlicher Sprachen, besonders für die Kodierung englischsprachiger Texte, die sich im Regelfall ohne Modifikation daher sogar mit nicht-UTF-8-fähigen Texteditoren ohne Beeinträchtigung bearbeiten lassen, was einen der Gründe für den Status als De-facto-Standard-Zeichenkodierung des Internet und damit verbundener Dokumenttypen darstellt. Im Juli 2022 verwendeten 97,7 % aller Websites UTF-8 und 98,8 % der Top 1000. In anderen Sprachen ist der Speicherbedarf in Byte pro Zeichen größer, wenn diese vom ASCII-Zeichensatz abweichen: Bereits die deutschen Umlaute erfordern zwei Byte, ebenso griechische oder kyrillische Zeichen. Zeichen fernöstlicher Sprachen und von Sprachen aus dem afrikanischen Raum belegen bis zu 4 Byte je Zeichen. Da die Verarbeitung von UTF-8 als Multibyte-Zeichenfolge wegen der notwendigen Analyse jedes Bytes im Vergleich zu Zeichenkodierungen mit fester Byteanzahl je Zeichen mehr Rechenaufwand und für bestimmte Sprachen auch mehr Speicherplatz erfordert, werden abhängig vom Einsatzszenario auch andere UTF-Kodierungen zur Abbildung von Unicode-Zeichensätzen verwendet. So führte Microsoft 1993 mit Windows NT 3.1 die Verwendung von UCS-2 ein, einer Zeichenkodierung, bei der jedes Zeichen fest zwei Bytes belegt. Da durch die spätere Weiterentwicklung von Unicode jedoch mit dieser Kodierung nicht mehr alle Zeichen darstellbar waren, erfolgte mit Windows 2000 ein neuerlicher Umstieg auf den kompatiblen Nachfolger UTF-16 Little Endian, womit man allerdings zugleich die Vorteile einer Kodierung mit fester Byteanzahl wieder verlor. UTF-8 (8-bit Unicode Transformation Format) es un formato de codificación de caracteres Unicode e ISO 10646 que utiliza símbolos de longitud variable. UTF-8 fue creado por Robert C. Pike y Kenneth L. Thompson. Está definido como estándar por la <RFC 3629> de la Internet Engineering Task Force (IETF).​ Actualmente es una de las tres posibilidades de codificación reconocidas por Unicode y lenguajes web, o cuatro en ISO 10646. Sus características principales son: * Es capaz de representar cualquier carácter Unicode. * Usa símbolos de longitud variable (de 1 a 4 bytes por carácter Unicode). * Incluye la especificación US-ASCII de 7 bits, por lo que cualquier mensaje ASCII se representa sin cambios. * Incluye sincronía. Es posible determinar el inicio de cada símbolo sin reiniciar la lectura desde el principio de la comunicación. * No superposición. Los conjuntos de valores que puede tomar cada byte de un carácter multibyte, son disjuntos, por lo que no es posible confundirlos entre sí. Estas características lo hacen atractivo en la codificación de correos electrónicos y páginas web.​​ El IETF requiere que todos los protocolos de Internet indiquen qué codificación utilizan para los textos y que UTF-8 sea una de las codificaciones contempladas.​ El (IMC) recomienda que todos los programas de correo electrónico sean capaces de crear y mostrar mensajes codificados utilizando UTF-8.​ UTF-8(8-bit Unicode Transformation Format)是一種針對Unicode的可變長度字元編碼,也是一种前缀码。它可以用一至四个字节对Unicode字符集中的所有有效编码点进行编码,属于Unicode标准的一部分,最初由肯·汤普逊和提出。由于较小值的编码点一般使用频率较高,直接使用Unicode编码效率低下,大量浪费内存空间。UTF-8就是为了解决向后兼容ASCII码而设计,Unicode中前128个字符,使用与ASCII码相同的二进制值的单个字节进行编码,而且字面与ASCII码的字面一一对应,這使得原來處理ASCII字元的軟體無須或只須做少部份修改,即可繼續使用。因此,它逐漸成為電子郵件、網頁及其他儲存或傳送文字優先採用的編碼方式。 自2009年以来,UTF-8一直是万维网的最主要的编码形式(对所有,而不仅是Unicode范围内的编码)(并由WHATWG宣布为强制性的“适用于所有事物(for all things)”,截止到2019年11月, 在所有网页中,UTF-8编码应用率高达94.3%(其中一些仅是ASCII编码,因为它是UTF-8的子集),而在排名最高的1000个网页中占96%。 第二热门的多字节编码方式Shift JIS和GB 2312分别具有0.3%和0.2%的占有率。Internet邮件联盟( Internet Mail Consortium, IMC)建议所有电子邮件程序都能够使用UTF-8展示和创建邮件, W3C建议UTF-8作为XML文件和HTML文件的默认编码方式。網際網路工程工作小組(IETF)要求所有網際網路協議都必須支持UTF-8編碼。(IMC)建議所有電子郵件軟件都支持UTF-8編碼。 UTF-8 (8-bit Unicode Transformation Format) é um tipo de codificação binária (Unicode) de comprimento variável criado por Ken Thompson e Rob Pike. Pode representar qualquer caractere universal padrão do Unicode, sendo também compatível com o ASCII. Por esta razão, está lentamente a ser adaptado como tipo de codificação padrão para e-mail, páginas web, e outros locais onde os caracteres são armazenados. UTF-8 usa de um a quatro bytes (estritamente, octetos) por caractere, dependendo do símbolo Unicode que representa. É necessário apenas um byte para codificar os 128 caracteres ASCII (Unicode U+0000 a U+007F). São necessários dois bytes para caracteres Latinos com diacríticos. São também usados dois bytes para representar caracteres dos alfabetos Grego, Cirílico, Armênio, Hebraico, Sírio e Thaana (Unicode U+0080 a U+07FF). São necessários três bytes para o resto do (que contém praticamente todos os caracteres comuns utilizados). Existem ainda outros caracteres que necessitam de quatro bytes. Quatro bytes pode parecer muito para um caractere ("code point"), mas muito raramente são utilizados. Além disso, UTF-16 (a principal alternativa ao UTF-8) necessita também de quatro bytes para estes "code points". A definição de qual dos dois é mais eficiente (UTF-8 ou UTF-16) depende da variedade de "code points" usados. Contudo, as diferenças entre os vários tipos de codificação tornam-se irrelevantes com o uso de sistemas de compressão como o DEFLATE. Para textos curtos nos quais os tradicionais algoritmos não funcionam bem e se faz necessário ter o tamanho em consideração, é geralmente usado o Esquema Padrão de Compressão para Unicode (Standard Compression Scheme for Unicode). O "Internet Engineering Task Force" (IETF) requer que todos os protocolos utilizados na Internet suportem, pelo menos, o UTF-8. O "Internet Mail Consortium" (IMC) [1] recomenda que todos os clientes de e-mail consigam ler e criar mails usando o UTF-8. UTF-8 (від англ. Unicode Transformation Format — формат перетворення Юнікоду) — кодування, що реалізовує представлення Юнікоду, сумісне з 8-бітовим кодуванням тексту. Текст, що складається тільки з символів, коди яких менші ніж 128, при записі в UTF-8 перетворюється на звичайний текст ASCII. І навпаки, в тексті UTF-8 будь-який байт із значенням менше, ніж 128 зображає символ ASCII з тим же кодом. Решта символів Юнікоду зображається послідовностями завдовжки від 2 до 6 байтів (реально тільки до 4 байтів, оскільки використання кодів більших, ніж 221 не планується), в яких перший байт завжди має вид 11xxxxxx, а решта — 10xxxxxx. Простіше кажучи, у форматі UTF-8 символи латинського алфавіту, розділові знаки і символи управління ASCII записуються кодами US-ASCII, а решта символів кодується за допомогою октетів із старшим бітом 1. В результаті, навіть якщо програма не розпізнає Юнікод, то англійська мова і розмітка все одно відображатимуться правильно. Формат UTF-8 був винайдений 2 вересня 1992 року Кеном Томпсоном і Робом Пайком і реалізований в Plan 9. Зараз стандарт UTF-8 офіційно закріплений в документах RFC 3629 і ISO/IEC 10646 Annex D. Символи UTF-8 виходять з Unicode таким чином: Також теоретично можливі, але не включені в стандарти: Зауваження: Символи, закодовані в UTF-8, можуть бути завдовжки до шести байтів, проте стандарт Unicode не визначає символів вище 0x10ffff, тому символи Unicode можуть мати максимальний розмір в 4 байти в UTF-8. UTF-8 (от англ. Unicode Transformation Format, 8-bit — «формат преобразования Юникода, 8-бит») — распространённый стандарт кодирования символов, позволяющий более компактно хранить и передавать символы Юникода, используя переменное количество байт (от 1 до 4), и обеспечивающий полную обратную совместимость с 7-битной кодировкой ASCII. Стандарт UTF-8 официально закреплён в документах RFC 3629 и ISO/IEC 10646 Annex D. Кодировка UTF-8 сейчас является доминирующей в веб-пространстве. Она также нашла широкое применение в UNIX-подобных операционных системах. Формат UTF-8 был разработан 2 сентября 1992 года Кеном Томпсоном и Робом Пайком, и реализован в Plan 9. Идентификатор кодировки в Windows — 65001. UTF-8, по сравнению с UTF-16, наибольший выигрыш в компактности даёт для текстов на латинице, поскольку латинские буквы без диакритических знаков, цифры и наиболее распространённые знаки препинания кодируются в UTF-8 лишь одним байтом, и коды этих символов соответствуют их кодам в ASCII. UTF-8 (8-bit Unicode Transformation Format) és una normativa de codificació de caràcters, per Unicode. UTF-8(ユーティーエフはち、ユーティーエフエイト)はISO/IEC 10646 (UCS) とUnicodeで使える8ビット符号単位(1〜4バイトの可変長)の文字符号化形式および文字符号化スキーム。 正式名称は、ISO/IEC 10646では “UCS Transformation Format 8”、Unicodeでは “Unicode Transformation Format-8” という。両者はISO/IEC 10646とUnicodeのコード重複範囲で互換性がある。RFCにも仕様がある。 2バイト目以降に「/」などのASCII文字が現れないように工夫されていることから、UTF-FSS (File System Safe) ともいわれる。旧名称はUTF-2。 UTF-8は、データ交換方式・ファイル形式として一般的に使われる傾向にある。 当初は、ベル研究所においてPlan 9で用いるエンコードとして、ロブ・パイクによる設計指針のもと、ケン・トンプソンによって考案された。 UTF-8 (zkratka pro UCS/Unicode Transformation Format) je jedním ze způsobů kódování znaků, tedy přiřazení číselných kódů znakové sadě (písmenům abecedy a dalším znakům) pro potřeby počítačového zpracování textů. Představuje rozšířený mezinárodní standard dle norem Unicode/ISO/IEC 10646 a dominantní způsob kódování na internetovém webu, který umožňuje ukládat a zobrazovat texty s použitím široké palety světových písem. Používá proměnnou délku znaku od 1 do 4 bajtů, zatímco standardy UTF-16 a UTF-32 mají pevnou délku 2 a 4 bajty (16 a 32 bitů). Byl navržen pro zpětnou kompatibilitu s ASCII, které obsahuje jen základní sadu anglické abecedy a se kterým má totožný způsob kódování 1bajtových (7bitových) znaků. UTF-8 je definováno v ISO 10646-1:2000 Annex D, v a v Unicode 4.0. UTF-8 is a variable-length character encoding used for electronic communication. Defined by the Unicode Standard, the name is derived from Unicode (or Universal Coded Character Set) Transformation Format – 8-bit. UTF-8 is capable of encoding all 1,112,064 valid character code points in Unicode using one to four one-byte (8-bit) code units. Code points with lower numerical values, which tend to occur more frequently, are encoded using fewer bytes. It was designed for backward compatibility with ASCII: the first 128 characters of Unicode, which correspond one-to-one with ASCII, are encoded using a single byte with the same binary value as ASCII, so that valid ASCII text is valid UTF-8-encoded Unicode as well. UTF-8 was designed as a superior alternative to UTF-1, a proposed variable-length encoding with partial ASCII compatibility which lacked some features including self-synchronization and fully ASCII-compatible handling of characters such as slashes. Ken Thompson and Rob Pike produced the first implementation for the Plan 9 operating system in September 1992. This led to its adoption by X/Open as its specification for FSS-UTF, which would first be officially presented at USENIX in January 1993 and subsequently adopted by the Internet Engineering Task Force (IETF) in RFC 2277 (BCP 18) for future internet standards work, replacing Single Byte Character Sets such as Latin-1 in older RFCs. UTF-8 is the dominant encoding for the World Wide Web (and internet technologies), accounting for 98.0% of all web pages, and up to 100.0% for many languages, as of 2022. UTF-8 (Unicode Transformation Format, 8 bit) è una codifica di caratteri Unicode in sequenze di lunghezza variabile di byte, creata da Rob Pike e Ken Thompson. UTF-8 usa gruppi di byte per rappresentare i caratteri Unicode, ed è particolarmente utile per il trasferimento tramite sistemi di posta elettronica a 8-bit. Informatikan, UTF-8 (8 biteko Unicode Transformazio Formatua) testuetako karaktereak kodetzeko modu bat da. Munduan zehar erabiltzen diren alfabeto guztiak erabiltzeko aukera ematen du (latindar alfabetoa, grekoak, ziriliko‎, arabiarra... UNICODEko kodetze-modua erabiliena da gaur egunean. UTF-8 Weberako bereziki kodeketa ohikoena da, baita bigarrena baina askoz gehiago erabilia ere. 2020an Web orrialde guztien %95 baino gehiago dira UTF-8-rekin kodetuta daudenak. Are gehiago, % 100-ra arte ailegatu zen 2020an hizkuntza batzuetarako. UTF-8 (åtta-bitars Unicode transformationsformat) är en längdvarierande teckenkodning som används för att representera text kodad i Unicode, som en sekvens av byte (oktetter). Unicode använder upp till 21 bitar per tecken, vilket inte får plats i en byte, och därför används till exempel i textfiler vanligen en av metoderna UTF-8 eller UTF-16 för att få en serie bytes. UTF-8 har valts som huvudsaklig teckenkodning i internetprotokoll: nya protokoll måste ge stöd till denna teckenkodning, om det inte av speciella skäl är olämpligt. صيغة التحويل الموحد-8 (بالإنجليزية: UTF-8)‏ هي اختصار للمصطلح (8-bit Unicode Transformation Format) الذي يترجم إلى صيغة تحويل نظام الحروف الدولي الموحد بقوة 8 بت. هذا الترميز وضع من قبل كل من روب بايك وكين تومسن لتمثيل معيار نظام الحروف الدولي الموحد للحروف الأبجدية لأغلب لغات العالم، ويتم تشفير الرموز فيه في حجم يتراوح بين بايت واحد وأربعة بايت للرمز الواحد.
dbp:encodes
ISO/IEC 10646
dbp:extends
dbr:US-ASCII
gold:hypernym
dbr:Character
prov:wasDerivedFrom
wikipedia-en:UTF-8?oldid=1124203220&ns=0
dbo:wikiPageLength
95448
foaf:isPrimaryTopicOf
wikipedia-en:UTF-8