Das Kefk Network Wiki befindet sich im Testbetrieb.
ISO 639
Aus Kefk.
ISO 639 ist ein internationaler Standard der International Organization for Standardization, welcher Kennungen für Namen von Sprachen (Sprachcodes) definiert. Der Standard besteht aus mehreren Teilnormen. Zwei Teile für Kennungen mit zwei Buchstaben (ISO 639-1) und drei Buchstaben (ISO 639-2) sind bereits verabschiedet und weit verbreitet; darauf aufbauend sind mit ISO 639-3 bis -5 weitere Teile in Entwicklung (Stand: Januar 2007).
Inhaltsverzeichnis |
Anwendung
Die in der Norm definierten Kennungen werden unter anderem in der Lexikographie, Linguistik, in Bibliotheken, Informationsdiensten und im Datenaustausch verwendet. Sie dienen zur eindeutigen Angabe von Sprachen und ihrer Kennzeichnung in Dokumenten. Sie wurden zwar nicht primär als Abkürzungen eingeführt [1], gelten aber vor allem im deutschsprachigen Raum aufgrund ihrer Struktur gemeinhin als solche[1], auch wenn eine Ähnlichkeit mit der bezeichneten Sprache nicht in jedem Fall gegeben ist.
Eine Verwendung kann beliebig in Groß- und Kleinschreibung erfolgen, doch gibt es darauf aufbauende Normen, die eine gewisse Schreibung festlegen.
Die Sprachcodes dieser Norm umfassen natürliche Sprachen und Plansprachen, aber keine Sprachen, die für die maschinelle Verarbeitung erstellt wurden, wie z. B. Programmiersprachen.
Teilnormen
Die offiziell eingeführten Teilnormen sind:
- ISO 639-1:2002 − Codes for the representation of names of languages - Part 1: Alpha-2 code
- ISO 639-2:1998 − Codes for the representation of names of languages - Part 2: Alpha-3 code
Weitere Teile befinden sich derzeit noch in Entwicklung:
- ISO 639-3 − Codes for the representation of names of languages - Part 3: Alpha-3 code for comprehensive coverage of languages
- ISO 639-4 − Codes for the representation of names of languages - Part 4: Implementation guidelines and general principles for language coding
- ISO 639-5 − Codes for the representation of names of languages - Part 5: Alpha-3 code for language families and groups
Bild:ISO 639 Schematische Darstellung.svg
ISO 639-1
Der Teilstandard ISO 639-1 wurde für den Einsatz in Terminologie, Lexikographie und Linguistik erstellt. Bis zu seiner offiziellen Verabschiedung 2002 wurde er unter dem Namen ISO 639 geführt. Vorläufer sind die Request for Comments RFC 1766 (März 1995) und RFC 3066 (Januar 2001). ISO 639-1 soll nicht nur die meist verbreiteten Sprachen im Bezug auf Literatur abdecken, sondern auch die am weitesten „entwickelten“ Sprachen mit einem „spezialisierten“ Vokabular aufnehmen[1]. Dabei werden nicht nur Einzelsprachen, sondern auch Sprachfamilien aufgenommen. Jede Sprache wird durch eine Kennung aus zwei Buchstaben repräsentiert. Zum Beispiel steht de für die deutsche Sprache oder fr für die französische Sprache. Insgesamt sind durch Nutzung der 26 lateinischen Buchstaben 262 = 676 verschiedene Kennungen möglich, von denen 185 belegt sind (Stand: Januar 2007[1]). Verwaltet wird die Norm von dem durch die UNESCO gegründeten International Information Center for Terminology (Infoterm)[1].
Aufnahmen weiterer Sprachcodes sind vorgesehen, jedoch nur für Kennungen, die gleichzeitig der ISO 639-2-Norm hinzugefügt werden. Für bereits bestehende Einträge der ISO 639-2 werden keine zwei-Buchstaben-Kennungen mehr vergeben. Dies soll Kompatibilität sicherstellen[1].
ISO 639-2
Die spätere Norm ISO 639-2 erweitert die ISO 639-1 durch eine größere Menge an Sprachen. Jeder in ISO 639-1 definierte Sprachcode findet sich mit einem Code aus drei Buchstaben auch in diesem Standard wieder.
Für die zweite Norm der ISO 639 wurde die Kennung auf drei Buchstaben erweitert, so dass theoretisch 263 = 17.576 Sprachcodes möglich sind. Bislang sind mehr als 480 (Stand: Januar 2007 [1]) Kennungen für Einzelsprachen und Sprachfamilien aufgenommen. Ziel der Norm ist der Einsatz in „Terminologie und Bibliographie“ um unter Anderem den Bedürfnissen des Bibliothekswesen nachzukommen und eine möglichst weite Auszeichnung von Werken der Welt zu ermöglichen. Aufgenommen wurden Sprachen für die eine als geeignet empfundene Menge an Literatur herausgegeben wurde. Da der Schwerpunkt auf der geschriebene Sprache liegt, wurde auf eine Unterscheidungen für Sprachen verzichtet, die in der geschriebenen Form zwar große Übereinstimmungen besitzen, doch in ihrer gesprochenen Form abweichen. So gibt es zum Beispiel keine Unterscheidung für die chinesischen Sprachen wie Hochchinesisch und Kantonesisch[1].
Die US-amerikanische Library of Congress übernimmt die Pflege dieser Teilnorm[1].
Der Standard ISO 639-2 erweitert ISO 639-1 und führt alle dortigen Sprachcodes. Die Kennungen aus zwei Buchstaben werden in dieser Norm mit drei Buchstaben fortgesetzt, wobei für die jeweilige Kennung lediglich ein weiterer Buchstabe hinzugenommen und eine Ähnlichkeit damit sichergestellt wird (siehe unten für den Spezialfall der Kennungen ISO 639-2/B). Die Basis für die Sprachcodes dieser Norm war die MARC Code List for Languages, die seit 1968 verwendet und ebenfalls von der Library of Congress verwaltet wurde.
Unter den hinzugekommenen Kennungen sind historische Sprachen wie Mittelhochdeutsch (gmh für German, Middle High) oder Althochdeutsch (goh für German, Old High) und Dialekte wie Niederdeutsch (nds für Low Saxon).
Kollektive Sprachcodes
Eine Besonderheit sind kollektive Sprachcodes (englisch collective language codes), die in der Norm ISO 639-1 nicht vorgesehen sind. Sie ermöglichen eine Kennzeichnung von Gruppen von Sprachen, für die eine Zuordnung von Kennungen zu den einzelnen Sprachen nicht angedacht ist. Dies kann für kleine Sprachen erfolgen, für die lediglich eine geringe Zahl an literarischen Werken vorhanden ist oder für die keine erhebliche Zunahme derer angenommen wird. Sie fassen einerseits Sprachfamilien zusammen wie die Irokesischen Sprachen unter der Kennung iro oder bieten eine Sammelbezeichnung für alle übrigen Einzelsprachen einer Familie, bei der einzelne zugehörige Sprachen einen eigenen Eintrag besitzen. Dies ist der Fall bei der Familie der samischen Sprachen (Kennung smi für sonstige), bei der die zugehörige nordsamische Sprache bereits eine eigene Kennung besitzt (sme). In der Tabelle der Sprachcodes wird für erstere Gruppen in der Regel der Bezeichner languages (deutsch „Sprachen“), für letztere der Bezeichner (other) (deutsch „andere“) an den Namen angehängt, um kollektive Sprachcodes auszuzeichnen. Ist ein Sprachcode für eine einzelne Sprache verfügbar, soll dieser vorgezogen werden und keine Zuordnung eines kollektiven Codes erfolgen. Dies kann auch Sprachcodes betreffen, die neu in den Standard aufgenommen werden.
Eine Beschreibung für die Zuordnung von Einzelsprachen (ohne eigenen Eintrag) zu einer der durch ISO 639-2 angebotenen kollektiven Sprachcodes findet sich nicht in dem Standard. Die Library of Congress verweist allerdings auf die oben genannte Liste der MARC Code List for Languages, die diese Funktion erfüllen kann.
Terminologische und bibliographische Sprachcodes (T/B)
Ein weiterer Unterschied zu ISO 639-1 und auch den anderen Teilnormen ist die Verwendung terminologischer (terminology code) und bibliographischer Kennungen (bibliographic code), die mit ISO 639-2/T und ISO 639-2/B bezeichnet werden. Diese Unterscheidung wird für 23 Einträge gemacht[1] und rührt weitestgehend daher, dass vor Einsatz der Norm bereits Konventionen im Bibliothekswesen für Drei-Buchstaben-Kennungen bestanden, die von der Benennung der bereits festgelegten Norm ISO 639-1 für zwei Buchstaben stark abwichen. Da in der Benennung eine Fortführung der ISO 639-1 angestrebt wurde, ist in den Fällen abweichender Bezeichner entschieden worden zwei Codes einzuführen. Die terminologische Kennung führt also die Benennung nach ISO 639-1 weiter, während die bibliographische Kennung aus Kompatibilitätsgründen geführt wird und die vorherige, weitläufige Benennung reflektiert. Der Standard erlaubt die Mischung von T- und B-Codes nicht und mahnt eine Festlegung der verwendeten Art vor dem Datenaustausch durch die betroffenen Parteien an.
Änderungen
Ein Hinzufügen und Ändern von Sprachcodes sowie das Ändern ihrer Beschreibung ist möglich, dabei wird auf Stabilität im beschriebenen Standard geachtet. Sprachcodes nach ISO 639-2/B, die nun Kompatibilität gewährleisten sollen, sind von Änderungen jedoch ausgeschlossen. Ein nach Änderungen aufgegebener Code soll frühestens nach fünf Jahren wiederverwendet werden.
ISO 639-3
Die sich in Entwicklung befindende Norm ISO 639-3 soll aufbauend auf die ersten beiden Teilnormen eine umfassende Abdeckung aller Sprachen der Welt ermöglichen. Die Kennungen aus drei Buchstaben aus der vorhergehenden Norm ISO 639-2 werden weitergeführt und somit kann auch ISO 639-3 theoretisch über 17.576 verschiedene Kennungen verfügen. Aufgenommen werden alle bekannten Sprachen, worunter auch alle lebendigen, ausgestorbenen, historischen sowie auch konstruierten Sprachen fallen. Mehr als 6.900 Sprachen sind bisher in den Standard aufgenommen worden. Gedacht ist die komplette Liste vor allem für den Einsatz in der Informationstechnologie, wo eine komplette Auflistung aller Sprachen wünschenswert ist[1].
Verwaltet wird sie von der Organisation SIL International.
Bis auf bibliographische Kennungen (ISO 639-2/B) finden sich alle Kennungen für Einzelsprachen der ISO 639-2 in dieser Norm wieder. Kollektive Sprachkennungen werden nicht geführt. Die Codes mit drei Buchstaben sind im ganzen Standard eindeutig gehalten, so dass die Bezeichner von bibliographischen und kollektive Kennungen in ISO 639-3 nicht neu belegt werden können[1].
Makrosprachen
Eine Erweiterung ist der Gebrauch so genannter Makrosprachen (engl. macrolanguage, als Dachsprache, nicht zu verwechseln mit Makrofamilien). Dabei werden mehrere Einzelsprachen in einem Eintrag subsumiert, wie z. B. die chinesischen Sprachen im Eintrag zho, der unter anderem die Einzelsprachen Hochchinesisch, Hakka, Min Nan und Wu enthält. Formal werden die mehr als 50 Makrosprachen[1] in den Normen ISO 639-1 (wenn erfasst) und -2 als Einzelsprachen geführt.
Im Gegensatz zu Sprachen, die über kollektive Sprachcodes repräsentiert werden, sollen Makrosprachen Einzelsprachen zusammenfassen, wenn unter bestimmten Gesichtspunkten die Betrachtung dieser Sprachen als eine einzelne notwendig erscheint. Dazu gibt die Registrierungsstelle Beispiele an[1]:
- es existiert eine einzelne hochentwickelte Sprache, die von Sprechern verwandter Sprachen verwendet wird, unter dem Eindruck einer gemeinsamen Identität (arabische Sprache),
- es existiert eine gemeinsame geschriebene Form (chinesische Sprachen mit der chinesischen Schrift) oder
- verschiedene Gruppen entwickeln sich getrennt, so dass eine eindeutige Kennzeichnung nötig ist, eine gemeinsame Identität aber noch existiert (Kroatische, Serbische, Bosnische Sprache).
Einige Einzelsprachen, die in Makrosprachen zusammengefasst werden, besitzen auch eigene Einträge in den Normen ISO 639-1 oder -2. So fungiert die Norwegische Sprache mit dem Code nor als Makrosprache, die beinhalteten Sprachen Bokmål (nb, nob) und Nynorsk (nn, nno) haben aber auch entsprechende Einträge in den anderen Normen.
Bei der Zusammenfassung in Makrosprachen kann es wie bei der malaiischen Sprache zu Namenskonflikten kommen. Während der Code mly die Einzelsprache bezeichnet, steht msa für die den Eintrag des Malaiischen als Makrosprache. Um Verwechselungen auszuschließen, erhalten die Benennungen dieser Einträge einen qualifizierenden Zusatz in der Auflistung der Kennungen.
ISO 639-4
Eine Erklärung zur Anwendung der Normen aus ISO 639 wird sich in dem Standard ISO 639-4 finden, der noch nicht erschienen ist. Diese Norm selbst wird keine Sprachcodes definieren[1].
ISO 639-5
Eine Erweiterung der kollektiven Kennungen aus ISO 639-2 wird ISO 639-5 bieten, die sich derzeit noch in Entwicklung befindet. Dabei werden die bereits vorhanden Kennungen aufgenommen. Dieser Teilstandard wird keine Sprachcodes mit ISO 639-3 teilen, die Mengen der geführten Kennungen sind disjunkt[1].
Verwaltung
Die Verwaltung der Kennungslisten übernehmen ausgewählte Registrierungsstellen (Registration Authorities), deren Aufgabe in der Annahme und Prüfung der Anfragen zur Aufnahme neuer Kennungen sowie Änderungen bestehender Einträge ist[1]. Die Registrierungsstelle für ISO 693-1 ist Infoterm, für ISO 639-2 die Library of Congress und ISO 639-3 wird von SIL International verwaltet.
Die Benennung der Kennungen soll möglichst der landessprachlichen Bezeichnung der kodierten Sprache folgen. Ausnahmen werden unter Umständen gemacht, wenn Ländern, in denen die betroffene Sprache gesprochen wird, eine andere Benennung wünschen.
Spezielle Kennungen
Die beiden Normen ISO 639-2 und ISO 639-3 verfügen über spezielle Kennungen, um einen flexiblen Umgang mit der Identifizierung von Texten zu ermöglichen.
Die Kennungen von qaa bis qtz (inklusive der alphabetisch dazwischen liegenden Kennungen) sind für die lokale Verwendung registriert und werden von der Registrierungsstelle nicht vergeben.
Für eine Kennzeichnung für Dokumente ohne sprachlichen Inhalt wurde die Kennung zxx erst später eingeführt[1]. Sie kann für die Kennzeichnung von Dokumenten verwendet werden, die keinen Text enthalten, z. B. Notendrucke oder Fotos[1].
Mit mul (von englisch multiple languages für „mehrere Sprachen“), welches für die Auszeichnung mehrerer Sprachen gedacht ist, wenn eine Kennzeichnung durch alle einzelnen Kennungen nicht angebracht ist, sowie und (von englisch undetermined für „unbekannt“) für eine nicht identifizierbare Sprache gibt es zwei besondere Kennungen[1].
Bezeichnung der Sprache nach Request for Comments 4646
Eine Kombination der Sprachcodes der ISO 639 Norm mit weiteren Normen zur Kennzeichnung von Sprachen und Schriften wird durch die Request for Comments 4646 gegeben. Dort wird das Zusammenspiel von Sprachcodes (ISO 639), geographischen Codes (ISO 3166-1) und Schriftcodes (ISO 15924) beschrieben.
Die Norm ISO 3166-1 kennzeichnet geographische Entitäten und kann so für die Bezeichnung von Sprachen und Dialekten einer bestimmten Region genutzt werden. Wie ISO 639-1 verwendet auch ISO 3166-1 zwei-buchstabige Kürzel. Es gibt dort die Empfehlung geographische Codes in Großbuchstaben darzustellen. Die Menge der jeweiligen Kodierungen überschneiden sich in den beiden Standards, so bezeichnet de nach ISO 639-1 die Deutsche Sprache und DE nach ISO 3166-1 das Land Deutschland, fr die Französische Sprache und FR analog das Gebiet des Staates Frankreich. Es können aber gleiche Codes in den verschiedenen Standards auch unterschiedliche Begrifflichkeiten markieren, wie BE für Belgien und be für die Weißrussische Sprache („Belarussisch“), EU für die Europäische Union und eu andererseits für die Baskische Sprache („Euskara“).
Mit ISO 15924 können Schriftsysteme identifiziert werden. Typischerweise werden sie mit einem vier-buchstabigen Code dargestellt, dessen erster Buchstabe groß geschrieben wird. So stehen Cyrl für die Schrift nach dem Kyrillischen Alphabet und Latn für die Schrift nach dem Lateinischen Alphabet.
Ein Beispiel für einen Code nach RFC 4646 ist fr-Latn-CA für Französisch nach dem Lateinischen Alphabet wie es in Kanada geschrieben wird.
Beispiel der Sprachkennungen nach ISO 639
Diese Tabelle zeigt (sortiert nach Sprachcodes) die verschiedenen Spracheinträge und stellt Zusammenhänge zwischen den Teilnormen der ISO 639 dar. So werden lebendige, historische und künstliche Sprachen aufgeführt. Manche Kennungen existieren nicht in den anderen Normen, oder sie existieren in einer anderen Form.
| Sprache | ISO 639-1 | ISO 639-2 (T/B) | ISO 639-3 |
|---|---|---|---|
| Bihari | bh | bih (kollektive Kennung) | |
| Altkirchenslawisch | cu
| chu
| chu
|
| Deutsch | de
| deu/ger
| deu
|
| Esperanto | eo
| epo
| epo
|
| Friesisch | fy
| fry
| fry (Makrosprache)
|
| Obersorbisch | hsb
| hsb
| |
| irokesische Sprachen | iro (kollektive Kennung, Sprachfamilie)
| ||
| ladakhische Sprache | Einordnung unter kollektiver Kennung sit
| lbj
| |
| Sanskrit | sa
| san
| san
|
| nordsamische Sprache | se | sme | sme |
| andere samische Sprachen | smi (kollektive Kennung, andere)
| ||
| Klingonisch | tlh
| tlh
| |
| Jiddisch | yi
| yid
| yid (Makrosprache)
|
| chinesische Sprachen | zh
| zho/chi
| zho (Makrosprache)
|
Weitere Vorläufer und verwandte Standards
- Im deutschen Sprachraum wurde früher die 1986 verabschiedete Norm DIN 2335 verwendet.
- Die Library of Congress verwendete bislang die MARC Code List for Languages [1].
Weblinks
- Komplette Codeliste für ISO 639-2 (alphabetisch sortiert) (englisch)
- Die Kennungen der Norm ISO 639-3 bei SIL International (englisch)
Einzelnachweise
| Dieses Dokument entstammt in seiner ersten oder einer späteren Version der deutschsprachigen Wikipedia. Es ist dort zu finden unter dem Stichwort ISO_639, die Liste der bisherigen Autoren befindet sich in der Versionsliste; die Originalfassung kann dort auch bearbeitet werden. Alle Texte der Wikipedia und ihre Derivate stehen unter der GNU-Lizenz für freie Dokumentation. |
