Canonical XML is a normal form of XML, intended to allow relatively simple comparison of pairs of XML documents for equivalence; for this purpose, the Canonical XML transformation removes non-meaningful differences between the documents. Any XML document can be converted to Canonical XML. For example, XML permits whitespace to occur at various points within start-tags, and attributes to be specified in any order. Such differences are seldom if ever used to convey meaning, and so these forms are generally considered equivalent:

Property Value
dbo:abstract
  • Canonical XML bezeichnet die kanonische Form von XML-Dokumenten, welche die Vergleichbarkeit zweier solcher Dokumente vereinfachen soll. Aus diesem Grund entfernt die Canonical XML-Transformation unbedeutende Unterschiede zwischen den Dokumenten. Jedes XML-Dokument kann in die kanonische Form (Canonical XML) gebracht werden. Beispielsweise erlaubt XML das Auftreten von Leerzeichen an bestimmten Stellen innerhalb des Start-Tags, und Attribute können in beliebiger Reihenfolge angegeben werden. Solche Unterschiede werden, wenn überhaupt, sehr selten mit einer Bedeutung versehen. Aus diesem Grund werden die folgenden beiden Formen allgemein als äquivalent angesehen: Im Zuge der Umwandlung eines beliebigen XML-Dokumentes in kanonisches XML werden die Attribute ihrer nominativen Ordnung (ihrem Namen nach alphabetisch) sortiert und die Leerstellen und Anführungszeichen werden vereinheitlicht. Somit würde die zweite Form in die erste Form umgewandelt werden. Canonical XML spezifiziert eine Reihe anderer Details, von denen einige hier aufgeführt werden: * die UTF-8-Zeichenkodierung wird verwendet * Zeilenenden werden durch das Zeichen 0x0A (New Line = Zeilenvorschub) repräsentiert * Leerzeichen innerhalb der Attributwerte sind vereinheitlicht * Entitäts-Referenzen werden erweitert * Als CDATA markierte Abschnitte werden nicht benutzt * Leere Elemente werden als Anfangs- und Endpaare kodiert, nicht durch Verwendung der Syntax für leere Elemente * Standardattribute sind explizit als solche gekennzeichnet * Überflüssige Namensraum-Deklarationen werden gelöscht. Ein Dokument in Canonical XML zu konvertieren, ist idempotent. Das bedeutet, dass sich bei der ersten Umwandlung die dargestellten Zeichen im Vergleich zum Original ändern, jedoch bei weiteren Umwandlungen keine weiteren Änderungen vorgenommen werden. Laut dem W3C können zwei Dokumente innerhalb des gegebenen Anwendungskontextes als logisch äquivalent angesehen werden, wenn diese die gleiche kanonische Form haben (außer Begrenzungen in Bezug auf einige selten vorkommende Fälle). Allerdings könnten Nutzer in speziellen Umgebungen Wert auf spezielle Semantiken legen, welche sich außerhalb der allgemeinen logischen Gleichheit befinden, mit der Canonical XML assoziiert ist. Beispielsweise könnte ein Steganographie-System in einem XML-Dokument durch Veränderung von Leerzeichen, Anführungszeichen von Attributen und Anordnung dieser, die Verwendung von hexadezimalen vs. dezimalen Zeichenreferenzen usw. Informationen verbergen. Offensichtlich gehen durch die Umwandlung einer solchen Datei in Canonical XML diese speziellen Semantiken verloren. Allerdings können auch XML-Dateien, die sich in der Verwendung von Groß- vs. Kleinschreibung unterscheiden, bzw. solche, die alte vs. neue Rechtschreibung verwenden usw., als äquivalent für bestimmte Zwecke angesehen werden. Solche Kontexte sind außerhalb des Rahmens von Canonical XML. (de)
  • Canonical XMLとは、XMLのプロファイル又はサブセットである。あらゆるXML文書はCanonical XMLに変換することができるが、詳しく言及すれば、一般に「重要である」と考えられていない表記の違いは標準化され取り去られてしまう。故に、2つのXML文書をCanonical XMLに変換し比較すれば、小さな表記の違いを省き、2つが論理的に「同じ文書」であるかどうかを容易に判別することができる。 例えば、XMLの仕様では、開始タグの様々な場所に空白が挿入されることを認めている。表記の違いが何らかの意味を持つことはめったにないので、次の2つのXML文書は同等であると考えられる。 <p class="a" secure="1"> <p secure = "1" class='a' > 任意のXMLドキュメントをCanonical XMLに変換する際に、属性は標準の順序は属性名によってアルファベット順に並べられ、標準的なスペース、クォーテーションで表記される。したがって、上記の2番目の文書は1番目に変換される。 Canonical XMLは他にも多くの規定をしている。例えば、 * UTF-8によってエンコードされていること * 行の最後尾は、0x0Aを使用することによって示すこと * 属性値における空白は省略されるということ * 実体参照は展開される * CDATAセクションは使用できない * 空要素は特別な記法を用いず、開始タグ、終了タグともに用いること * 属性値を正規化すること * 余計な・XML宣言、DTD宣言を削除すること XML文書のCanonical XMLへの変換は、冪等である。 すなわち、最初の変換はオリジナルの文書と異なった文字列を返すが、それ以上、繰り返し変換しても変化はおこらないということである。 W3Cによると、2つのXML文書のCanonical XMLが同一ならば、2つの文書は任意のアプリケーション(いくつかの珍しいケースを除く)において論理的に同等である。 しかしながら、セマンティックスに着目する場合は、通常のCanonical XMLでの論理的同等という範囲を越えている。例えば、 ステガノグラフィシステムでは、空白、属性、クォーテーション、属性の順序、16進数で文字参照するか、10進数で文字参照するかなどの意味のある情報を省略してしまう。 Canonical XMLへの変換は、そのような専門的なセマンティックスを明らかに失くしてしまう。 一方、大文字と小文字表記、古典的表記と現代的表記などの点で違うXML文書とされていたものは、Canonical XMLでは、そのような違いは無視され、同じとされる。 (ja)
  • Canonical XML is a normal form of XML, intended to allow relatively simple comparison of pairs of XML documents for equivalence; for this purpose, the Canonical XML transformation removes non-meaningful differences between the documents. Any XML document can be converted to Canonical XML. For example, XML permits whitespace to occur at various points within start-tags, and attributes to be specified in any order. Such differences are seldom if ever used to convey meaning, and so these forms are generally considered equivalent: <p class="a" secure="1"> <p secure = "1" class='a' > In converting an arbitrary XML document to Canonical XML, attributes are encoded in a normative order (alphabetical by name), and with normative spacing and quoting (though with all namespace declarations placed ahead of regular attributes, and namespaced attributes sorted by namespace rather than prefix or qualified name). Thus, the second form above would be converted to the first. Canonical XML specifies a number of other details, some of which are: * the UTF-8 encoding is used * line-ends are represented using the character 0x0A * whitespace in attribute values is normalized * entity references and non-special character references are expanded * CDATA marked sections are not used * empty elements are encoded as start/end pairs, not using the special empty-element syntax * default attributes are made explicit * superfluous namespace declarations are deleted According to the W3C, if two XML documents have the same canonical form, then the two documents are logically equivalent within the given application context (except for limitations regarding a few unusual cases). However, in a special context users might care about special semantics beyond the generic logical equivalence with which Canonical XML is associated. For example, a steganography system could conceal information in an XML document by varying whitespace, attribute quoting and order, the use of hexadecimal vs. decimal numeric character references, and so on. Obviously converting such a file to Canonical XML would lose those specialized semantics. On the other hand, XML files that differ in their use of upper- vs. lower-case, or that use archaic versus modern spelling, and so on, might be considered equivalent for certain purposes. Such contexts are beyond the scope of Canonical XML. (en)
  • Canonical XML(规范化形式的XML)XML规范的一个子集。任何XML文档都可以转换为规范化形式的XML,因此将特定类型的微小差异去除却仍是该XML文档。由于这些特定的差异通常不认为是有意义的,转换成规范化形式的XML是判断两个XML文档逻辑上是否是同一个文档的好办法。 举例来说,XML允许在开始标签(tag)的不同点出现,属性可以按任何顺序书写,这些差异很少用来表达含义,因此这些形式通常被认为是相等的 <p class="a" secure="1"> <p secure = "1" class='a' > 在将一个任意XML文档到规范化形式的XML的转换中,属性将按标准书序(名字的字母顺序)排列,空格和引号被标准化。 这样上面的第二种形式将转换成第一种。 Canonical XML定义了一些规范化形式的规则,包括: * 使用UTF-8编码 * 用0x0A字符表示换行符 * 属性值里的白空格被正规化 * 添加缺省属性的说明 * CDATA标记的部分替换为相应的文字字符 * 展开实体引用 * 删除XML的声明和DTD * 空元素使用开始/结束标签对,而不是用特殊的空元素语法 * 属性按照属性名的字母顺序排序 * 删除元素中多余的命名空间声明 讲一个文档转换为规范化形式的XML是幂等的。 也就是说,第一次转换通常产生与原文档不同的字符串,而重复的转换将不再产生变化。 根据W3C的规范,如果两个XML文档具有相同的规范化形式,那么在一定的应用上下文(极少见的情形除外)中,这两个文档在逻辑上是相等的。 然而,在特殊的上下文中,用户可能关心规范形式的XML逻辑等价之外的特殊语义。比如说,隐写术系统可能在XML文档中通过不同的白空格,属性引号和顺序,使用十进制或十六进制数字字符等等来隐藏信息。显然,将这样的文件转换为标准化形式的XML将丢失这些特殊的语义。而另一方面,XML文件使用大小写的不同,单词使用古代的拼写或现代的拼写等,在某种意义上可以看作是相同的,这样的语境超过了标准化形式XML的范围。 (zh)
dbo:wikiPageExternalLink
dbo:wikiPageID
  • 10025568 (xsd:integer)
dbo:wikiPageRevisionID
  • 605260383 (xsd:integer)
dct:subject
http://purl.org/linguistics/gold/hypernym
rdf:type
rdfs:comment
  • Canonical XML bezeichnet die kanonische Form von XML-Dokumenten, welche die Vergleichbarkeit zweier solcher Dokumente vereinfachen soll. Aus diesem Grund entfernt die Canonical XML-Transformation unbedeutende Unterschiede zwischen den Dokumenten. Jedes XML-Dokument kann in die kanonische Form (Canonical XML) gebracht werden. Canonical XML spezifiziert eine Reihe anderer Details, von denen einige hier aufgeführt werden: (de)
  • Canonical XML is a normal form of XML, intended to allow relatively simple comparison of pairs of XML documents for equivalence; for this purpose, the Canonical XML transformation removes non-meaningful differences between the documents. Any XML document can be converted to Canonical XML. For example, XML permits whitespace to occur at various points within start-tags, and attributes to be specified in any order. Such differences are seldom if ever used to convey meaning, and so these forms are generally considered equivalent: (en)
  • Canonical XMLとは、XMLのプロファイル又はサブセットである。あらゆるXML文書はCanonical XMLに変換することができるが、詳しく言及すれば、一般に「重要である」と考えられていない表記の違いは標準化され取り去られてしまう。故に、2つのXML文書をCanonical XMLに変換し比較すれば、小さな表記の違いを省き、2つが論理的に「同じ文書」であるかどうかを容易に判別することができる。 例えば、XMLの仕様では、開始タグの様々な場所に空白が挿入されることを認めている。表記の違いが何らかの意味を持つことはめったにないので、次の2つのXML文書は同等であると考えられる。 <p class="a" secure="1"> <p secure = "1" class='a' > 任意のXMLドキュメントをCanonical XMLに変換する際に、属性は標準の順序は属性名によってアルファベット順に並べられ、標準的なスペース、クォーテーションで表記される。したがって、上記の2番目の文書は1番目に変換される。 Canonical XMLは他にも多くの規定をしている。例えば、 W3Cによると、2つのXML文書のCanonical XMLが同一ならば、2つの文書は任意のアプリケーション(いくつかの珍しいケースを除く)において論理的に同等である。 (ja)
  • Canonical XML(规范化形式的XML)XML规范的一个子集。任何XML文档都可以转换为规范化形式的XML,因此将特定类型的微小差异去除却仍是该XML文档。由于这些特定的差异通常不认为是有意义的,转换成规范化形式的XML是判断两个XML文档逻辑上是否是同一个文档的好办法。 举例来说,XML允许在开始标签(tag)的不同点出现,属性可以按任何顺序书写,这些差异很少用来表达含义,因此这些形式通常被认为是相等的 <p class="a" secure="1"> <p secure = "1" class='a' > 在将一个任意XML文档到规范化形式的XML的转换中,属性将按标准书序(名字的字母顺序)排列,空格和引号被标准化。 这样上面的第二种形式将转换成第一种。 Canonical XML定义了一些规范化形式的规则,包括: * 使用UTF-8编码 * 用0x0A字符表示换行符 * 属性值里的白空格被正规化 * 添加缺省属性的说明 * CDATA标记的部分替换为相应的文字字符 * 展开实体引用 * 删除XML的声明和DTD * 空元素使用开始/结束标签对,而不是用特殊的空元素语法 * 属性按照属性名的字母顺序排序 * 删除元素中多余的命名空间声明 (zh)
rdfs:label
  • Canonical XML (de)
  • Canonical XML (en)
  • Canonical XML (ja)
  • Canonical XML (zh)
owl:sameAs
prov:wasDerivedFrom
foaf:isPrimaryTopicOf
is dbo:wikiPageDisambiguates of
is foaf:primaryTopic of