Das Kefk Network Wiki befindet sich im Testbetrieb.
Extensible Markup Language
Aus Kefk.
Die Extensible Markup Language (engl. für „erweiterbare Auszeichnungssprache“), abgekürzt XML, ist eine Auszeichnungssprache zur Darstellung hierarchisch strukturierter Daten in Form von Textdateien. XML wird bevorzugt für den Austausch von Daten zwischen unterschiedlichen IT-Systemen eingesetzt, speziell über das Internet.[1]
Die vom World Wide Web Consortium (W3C) herausgegebene XML-Spezifikation definiert eine Metasprache, auf deren Basis durch strukturelle und inhaltliche Einschränkungen anwendungsspezifische Sprachen definiert werden. Diese Einschränkungen werden durch Schemasprachen wie DTD oder XML-Schema ausgedrückt. Beispiele für XML-Sprachen sind: RSS, MathML, GraphML, XHTML, Scalable Vector Graphics, aber auch XML-Schema.
XML ist eine vereinfachte Teilmenge von SGML.
Inhaltsverzeichnis |
Namen der Strukturelemente
Die Namen der Strukturelemente (XML-Elemente) für eine XML-Anwendung lassen sich frei wählen. Ein XML-Element kann ganz unterschiedliche Daten enthalten und beschreiben: meistens Text, aber auch Grafiken oder abstraktes Wissen. Ein Grundgedanke hinter XML ist es, Daten und ihre Repräsentation zu trennen, um Daten beispielsweise einmal als Tabelle und einmal als Grafik auszugeben, aber für beide Arten der Auswertung die gleiche Datenbasis im XML-Format zu nutzen.
Fachbegriffe
- Wohlgeformtheit
- Ein XML-Dokument ist wohlgeformt, wenn es sämtliche Regeln für XML einhält. Beispielhaft seien hier folgende genannt:
- Gültigkeit
- Soll XML für den Datenaustausch verwendet werden, ist es von Vorteil, wenn das Format mittels einer Grammatik (z. B. einer Dokumenttypdefinition (DTD) oder eines XML-Schemas) definiert ist. Der Standard definiert ein XML-Dokument als gültig, wenn es wohlgeformt ist, den Verweis auf eine Grammatik enthält und das durch die Grammatik beschriebene Format einhält.
- Parser
- Programme oder Programmteile, die XML-Daten auslesen, interpretieren und ggf. auf Gültigkeit prüfen, nennt man XML-Parser. Prüft der Parser die Gültigkeit, so ist er ein validierender Parser.
Aufbau eines XML-Dokuments
Beispiel einer XML-Datei
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<enzyklopädie>
<titel>Wikipedia Städteverzeichnis</titel>
<eintrag>
<stichwort>Genf</stichwort>
<eintragstext>Genf ist der Sitz von …</eintragstext>
</eintrag>
<eintrag>
<stichwort>Köln</stichwort>
<eintragstext>Köln ist eine Stadt, die …</eintragstext>
</eintrag>
</enzyklopädie>
XML-Dokumente besitzen einen physischen und einen logischen Aufbau.
Der physische Aufbau eines XML-Dokumentes besteht aus
- Entitäten. Die erste Entität ist die Hauptdatei des XML-Dokuments. Weitere mögliche Entitäten sind über
- Entitätenreferenzen (
&name;für das Dokument bzw.%name;für die Dokumenttypdefinition) eingebundene Zeichenketten, eventuell auch ganze Dateien, sowie - Referenzen auf Zeichenentitäten zur Einbindung einzelner Zeichen, die über ihre Nummer referenziert wurden (
&#Dezimalzahl;, oder&#xHexadezimalzahl;).
- Entitätenreferenzen (
- Eine XML-Deklaration wird optional verwendet, um XML-Version, Zeichenkodierung und Verarbeitbarkeit ohne Dokumenttypdefinition zu spezifizieren.
- Eine Dokumenttypdefinition wird optional verwendet, um Entitäten sowie den erlaubten logischen Aufbau zu spezifizieren.
Der logische Aufbau eines XML-Dokumentes ist eine Baumstruktur und damit hierarchisch strukturiert. Als Baumknoten gibt es:
- Elemente, deren physische Auszeichnung mittels
- einem passenden Paar aus Start-Tag (
<Tag-Name>) und End-Tag (</Tag-Name>) oder - einem Empty-Element-Tag (
<Tag-Name />) erfolgen kann,
- einem passenden Paar aus Start-Tag (
- Attribute als bei einem Start-Tag oder Empty-Element-Tag geschriebene Schlüsselwort-Werte-Paare (
Attribut-Name="Attribut-Wert") für Zusatz-Informationen über Elemente (eine Art Meta-Information), - Verarbeitungsanweisungen (
<?Ziel-Name Parameter ?>, engl. Processing Instruction) - Kommentare (
<!-- Kommentar-Text -->) - Text, welcher als normaler Text oder in Form eines CDATA-Abschnittes (
<![CDATA[ beliebiger Text]]>) auftreten kann.
Ein XML-Dokument muss genau ein Element auf der obersten Ebene enthalten. Unterhalb von diesem Dokumentelement können weitere Elemente verschachtelt werden.
Zur Spezifikation des logischen Aufbaus werden die Dokumenttypdefinitionen durch das umfangreichere XML-Schema abgelöst, welches keine Möglichkeit zur Definition von Entitäten, jedoch einen adäquaten Ersatz für Entitäten besitzt. Verarbeitungsanweisungen werden in der Praxis meist eingesetzt, um in XML-Dokumenten Verarbeitungsanweisungen in anderen Sprachen einzubauen. Ein Beispiel dafür ist PHP, dessen Verarbeitungsanweisungen in XML-Dokumenten mit einer PHP-Verarbeitungsanweisung, z. B. <?php echo'Hello, World'; ?> eingebaut werden können.
Einige Web-Browser können XML-Dokumente mit Hilfe eines eingebauten XML-Parsers direkt darstellen. Dies geschieht z. B. in Verbindung mit einem Stylesheet. Diese Transformation kann die Daten in ein komplett anderes Format umwandeln, das Zielformat muss nicht einmal XML sein.
Klassifikation von XML-Dokumenten
XML-Dokumente lassen sich anhand ihres intendierten Gebrauchs und ihres Strukturierungsgrads in dokumentzentrierte und datenzentrierte Dokumente unterteilen. Die Grenze zwischen diesen Dokumentenarten ist jedoch fließend. Mischformen können als semistrukturiert bezeichnet werden.
- dokumentzentriert: Das Dokument ist an ein Textdokument angelehnt, das für menschlichen Leser größtenteils auch ohne die zusätzliche Metainformation verständlich ist. XML-Elemente werden hauptsächlich zur semantischen Markierung von Passagen des Dokuments genutzt, das Dokument ist nur schwach strukturiert. Aufgrund der schwachen Strukturierung ist eine maschinelle Verarbeitung schwierig.
- datenzentriert: Das Dokument ist hauptsächlich für die maschinelle Verarbeitung bestimmt. Es folgt einem Schema, das Entitäten eines Datenmodells beschreibt und definiert, in welcher Beziehung die Entitäten zueinander stehen, sowie, welche Attribute die Entitäten haben. Das Dokument ist somit stark strukturiert und für den unmittelbaren menschlichen Gebrauch weniger geeignet.
- semistrukturiert: Semistrukturierte Dokumente stellen eine Art Mischform dar, die stärker strukturiert ist als dokumentzentrierte Dokumente, aber schwächer als datenzentrierte Dokumente.
XML-Obermenge SGML
Obwohl die schon länger existierende Obermenge zu XML, namentlich SGML, bereits weitaus umfangreicher war, kam es nie zu einer breiten Akzeptanz in der breiten Praxis. Der Grund dafür liegt u. a. in der Komplexität SGMLs, die die Softwareentwicklung stark erschwert. Die Komplexität von SGML und XML kann mit der Pareto-Verteilung beschrieben werden: Obwohl XML nur ca. 20 % der Komplexität von SGML hat, können damit ca. 80 % der Anwendungsfälle abgedeckt werden. Der Bedarf nach einem unbeschränkten weltweiten Informationsaustausch und die Popularität von HTML brachten das deutlich einfachere XML hervor.
Verarbeitung von XML
Programmatischer Zugriff auf XML-Dokumente
Das Einlesen von XML-Dokumenten erfolgt auf unterster Ebene über eine spezielle Programmkomponente, einen XML-Prozessor, auch XML-Parser genannt. Er stellt ein API zur Verfügung, über das die Anwendung auf das XML-Dokument zugreift.
Viele XML-Prozessoren stellen eines oder beide der folgenden APIs bereit:
- SAX: Ein SAX-API repräsentiert ein XML-Dokument als sequentiellen Datenstrom und ruft für im Standard definierte Ereignisse vorgegebene Rückruffunktionen (callback function) auf. Eine Anwendung, die SAX nutzt, kann eigene Unterprogramme als Rückruffunktionen registrieren und auf diese Weise die XML-Daten auswerten.
- DOM: Ein DOM-API repräsentiert ein XML-Dokument als Baumstruktur und gewährt wahlfreien Zugriff auf die einzelnen Bestandteile der Baumstruktur. DOM erlaubt außer dem Lesen von XML-Dokumenten auch die Manipulation der Baumstruktur und das Zurückschreiben der Baumstruktur in ein XML-Dokument.
Oftmals greift der Anwendungscode nicht direkt auf die Parser-API zu. Stattdessen wird XML weiter gekapselt, so dass der Anwendungscode mit nativen Objekten / Datenstrukturen arbeitet, welche sich auf XML abstützen. Beispiele für solche Zugriffsschichten sind JAXB in Java, der Data Binding Wizard in Delphi oder das XML Schema Definition Toolkit in .Net. Die Umwandlung von Objekten in XML ist üblicherweise bidirektional möglich. Diese Umwandlung wird als Serialisierung oder Marshalling bezeichnet.
Transformation und Darstellung von XML-Dokumenten
Ein XML-Dokument kann mittels geeigneter Transformationssprachen wie XSLT oder DSSSL in ein anderes Dokument transformiert werden. Oftmals dient die Transformation zur Überführung eines Dokuments aus einer XML-Sprache in eine andere XML-Sprache, beispielsweise zur Transformation nach XHTML, um das Dokument in einem Webbrowser anzuzeigen.
Schemasprachen
Um die Struktur von XML-Sprachen zu beschreiben, bedient man sich so genannter Schemasprachen. Die zwei bekanntesten sind DTD und XML Schema.
DTD
Eine DTD (Dokumenttypdefinition) ist eine Beschreibung eines XML-Dokuments. Sie wurde zusammen mit XML standardisiert, zu einem Zeitpunkt, an dem XML noch hauptsächlich für „narrative documents“ („erzählende Dokumente“, also Zeitungsartikel, Bücher, …) gedacht war, weniger als Datenaustauschformat. Daher ist es z. B. in DTD nicht möglich, zwischen Texten und Zahlen zu unterscheiden. Ein weiterer Nachteil ist die Tatsache, dass die DTD in einer eigenen Sprache abgefasst werden muss. Außerdem kennt die DTD keine Namensräume.
XML-Schema / XSD
XML-Schema (bzw. XSD = XML-Schema-Definition) ist die moderne Möglichkeit, die Struktur von XML-Dokumenten zu beschreiben. XML-Schema bietet auch die Möglichkeit, den Inhalt von Elementen und Attributen zu beschränken, z. B. auf Zahlen, Datumsangaben oder Texte, z. B. mittels regulärer Ausdrücke. Ein Schema ist selbst ein XML-Dokument, welches erlaubt, komplexere (auch inhaltliche) Zusammenhänge zu beschreiben, als dies mit einer formalen DTD möglich ist.
Weitere Schemasprachen
Weitere Schemasprachen sind Document Structure Description, RELAX NG, Schematron und Examplotron.
XML-Familie
Infrastruktur
Im Zusammenhang mit XML wurden vom W3-Konsortium auf Basis von XML viele Sprachen definiert, welche XML-Ausdrücke für häufig benötigte allgemeine Funktionen anbieten wie etwa die Verknüpfung von XML-Dokumenten. Zahlreiche XML-Sprachen nutzen diese Grundbausteine.
- Transformation von XML-Dokumenten: XSLT
- Adressierung von Teilen eines XML-Baumes: XPath
- standardisierte Attribute: XML Base und xml:id
- Verknüpfung von XML-Ressourcen: XPointer, XLink und XInclude
- Selektion von Daten aus einem XML-Datensatz: XQuery
- Definition von XML-Datenstrukturen: XML Schema (= XSD, XML Schema Definition Language)
- Signatur und Verschlüsselung von XML-Knoten: XML Signature und XML-Encryption
- PDF-Generierung aus XML-Daten: XSL-FO
Sprachen
Während XML selbst aus SGML hervorgegangen ist, bedienen sich heute sehr viele formale Sprachen der Syntax von XML. So ist XML ein wesentliches Instrument, um – wie es das W3C vorsieht – eine offene, für Mensch und Maschine verständliche Informationslandschaft (semantisches Web) zu schaffen.
Auch die bekannte Dokumentsprache HTML wurde als „Extensible HyperText Markup Language“ (XHTML) im Anschluss an die Version 4.01 in dieses Konzept integriert, so dass ihr nun XML als Definitionsbasis zu Grunde liegt. Vielfacher Grund für den Einsatz von XML ist das zahlreiche Vorhandensein von Parsern und die einfache Syntax: die Definition von SGML umfasst 500 Seiten, jene von XML nur 26.
Die folgenden Listen stellen einige dieser XML-Sprachen dar.
Text
- XSL-FO (Textformatierung)
- DocBook
- DITA
- XHTML (XML-konformes HTML)
- TEI (Text Encoding Initiative)
- NITF (News Industry Text Format)
Grafik
- SVG (Vektorgrafiken)
- X3D (3D-Modellierungssprache)
- Collada (Austauschformat für Daten zwischen verschiedenen 3D-Programmen)
Geodaten
- Geography Markup Language (GML)
- GPS Exchange Format (GPX): XML für GPS-Daten
- Keyhole Markup Language (KML): Koordinaten-Spezifikation für Google Earth
- OpenImmo: XML für Immobilien mit Geo-Daten
Multimedia
Sicherheit
- SAML (sicherheitsbezogene Informationen beschreiben und übertragen)
- XML Signature (XML-Schreibweise für digitale Signaturen)
- XML Encryption
Weitere
Darüber hinaus existieren XML-Sprachen für Webservices (z. B. SOAP und WSDL), für mathematische Formeln (MathML), für Verfahren im Bereich des Semantic Web (RDF, OWL, Topic Maps, UOML), für Service Provisioning (SPML), für den Austausch von Finanzberichten wie bspw. Jahresabschlüsse (XBRL), in Bereichen der Automobilindustrie (ODX, MSRSW, AUTOSAR-Templates, QDX, JADM) über Landwirtschaft (AgroXML) bis zum Verlagswesen (ONIX) und viele weitere mehr.
Eine Zusammenfassung von XML-Sprachen für Office-Anwendungen findet sich im OpenDocument-Austauschformat (OASIS Open Document Format for Office Applications).
Siehe auch
- Namensraum (XML), Liste der XML-Namensräume
- Cω (lies: C Omega)
- XML-Datenbank
Programme
- XML-Editoren
- Open Source
- Eclipse mit verschiedenen Plugins, z. B. Web Standard Tools (WST)
- JEdit mit XML-Plugin
- KXML Editor
- NetBeans
- Open XML Editor
- Freeware
- Crimson Editor mit XML-Syntaxfile
- Peter's XML Editor
- Microsoft XML Notepad 2007
- Kommerziell
- Altova XMLSpy 2006, bis 2004 auch als kostenlose „Home Edition“ verfügbar
- XML EditX
- oXygen
- Epic
- XML Editor
- Stylus Studio
- XMetaL
- XMLmind
- NGed, ein WYSIWYG-XML-Editor
- Open Source
- Office
- AbiWord
- Adobe FrameMaker (seit V7.2 Unterstützung von DTD, Schema, XSL; komfortables Editieren auch per Drag&Drop in Baumansicht)
- KOffice
- Microsoft Word (Seit der Version „Word 2003“ kann Word eigene Dokumente in WordML, einer proprietären XML-Anwendung, speichern. Darüber hinaus ist in der Professionell-Variante das Editieren von beliebigen XML-Dateien möglich.) [1]
- OpenOffice.org
- Anzeigeprogramme
- Internet Explorer
- Firefox
- Mozilla
- Netscape (ab Version 6)
- Opera
- XML-Schema Dokumentation
- Open Source
- xsddoc
- xs3p
- Nicht Open Source
- xnsdoc
- XSDDoc
- Open Source
XML-Parser
XML-Parser (oft auch als XML-Prozessoren bezeichnet) lesen ein XML-Dokument nach bestimmten Kriterien aus. Beim DOM wird das gesamte Dokument in eine Struktur eingelesen, die dann weiterverarbeitet werden kann. XML-Parser sind in verschiedensten Sprachen vorhanden, z. B. Java, C, C++, C# oder PHP.
| Name | Programmiersprache | Kommentar |
|---|---|---|
| Xerces | C++ und Java | Apache-Projekt |
| Gnome XML-Parser | C | |
| Crimson | Java | Apache-Projekt |
| dom4j | Java | |
| XDOM | Delphi / Kylix | Enthält auch XPath- und DOM-Implementierung |
| SimpleXML | PHP 5 | |
| Microsoft Core XML Services | Windows Scripting | |
| TinyXml | C++ | Baut Objektbaum des XML Dokumentes auf |
| XPP | Java | XML Pull-Parser, der die XML Pull Parsing API bedient. |
Quellen
Literatur
- Elliotte Rusty Harold: Die XML Bibel, mitp 2002, ISBN 3826608216
- Stefan Mintert (Hrsg.): XML & Co – Die W3C-Spezifikationen für Dokumenten- und Datenarchitektur, Addison-Wesley, München, ISBN 3827318440
- Christine Kränzler, XML/XSL für professionelle Einsteiger, Markt+Technik Verlag, München 2002, ISBN 3-8272-6339-5
- Erik T. Ray: Einführung in XML, O’Reilly 2004, ISBN 3897212862
- Helmut Vonhoegen: Einstieg in XML, Galileo Computing 2005, ISBN 3-89842-630-0
- Frank Bitzer: XML im Unternehmen, Galileo Computing 2003, ISBN 3-89842-288-7
Weblinks
- World Wide Web Consortium über XML (englisch),
<edition W3C.de> – Deutsche Übersetzungen zu XML u. a. - W3Schools – XML-Tutorial
- XML in 10 Punkten
- XML in der Praxis – Online-Buch
- XML-Einführung und Linkliste
- XML Document Authoring Tools Strukturierte Liste von XML-Dokument-Entwicklungswerkzeugen (englisch)
- Links zum Thema „XML“ im Open Directory Project
| Dieses Dokument entstammt in seiner ersten oder einer späteren Version der deutschsprachigen Wikipedia. Es ist dort zu finden unter dem Stichwort Extensible_Markup_Language, die Liste der bisherigen Autoren befindet sich in der Versionsliste; die Originalfassung kann dort auch bearbeitet werden. Alle Texte der Wikipedia und ihre Derivate stehen unter der GNU-Lizenz für freie Dokumentation. |
