Das Kefk Network Wiki befindet sich im Testbetrieb.
Normalisierte Google-Distanz
Aus Kefk.
Einer Theorie nach kann die normalisierte Google-Distanz (engl. normalized Google distance, kurz NGD) als statistische Größe für die semantische Nähe zweier Begriffe oder semantischer Konzepte dienen. Sie wird über die Anzahl der Treffer ermittelt, die für zwei in die Suchmaschine Google eingegebene Begriffe gefunden werden, sprich die Anzahl der Dokumente, welche beide Begriffe enthalten. Die NGD liegt normalerweise zwischen 0 und 1, je geringer sie ist, desto enger hängen zwei Begriffe zusammen.
Inhaltsverzeichnis |
Ermittlung der normalisierten Google-Distanz
Gibt man einen Begriff, beispielsweise "Pferd", in die Suchmaschine Google ein, erhält etwa 4.310.000 indexierte Seiten. Für einen weiteren Begriff, zum Beispiel "Reiter" sind es 3.400.000 Seiten. Kombiniert man die Begriffe, werden ca. 315.000 Seiten gefunden. Für das gemeinsame Auftreten der Begriffe "Pferd" und "Bart" werden zwar immer noch 67.100 Seiten aufgeführt, es ist jedoch deutlich, dass "Pferd" und "Reiter" enger zusammenhängen. Daraus ergibt sich eine bestimmte Wahrscheinlichkeit für das gemeinsame Auftreten dieser Begriffe. Im Vergleich zur Gesamtmenge der indexierten Seiten (etwa 8.000.000.000) ergibt dies die NGD. Die NGD von "Pferd" und "Reiter" beläuft sich auf ≈0.38597.
Es ergibt sich folgende Formel für die NGD zweier Begriffe x und y:
Wobei f(x) die Anzahl der Treffer für einen gewissen Begriff x und M die Gesamtanzahl der indexierten Seiten benennt. NGD(x,y) ist nicht definiert für den Sonderfall f(x) = f(y) = 0.
Praktische Anwendungsbereiche
Die niederländische Wissenschaftler Paul Vitanyi und der australische Wissenschaftler Rudi Cilibrasi glauben mit diesem Verfahren einer Künstlichen Intelligenz die Bedeutung von Begriffen automatisch beibringen zu können. Eine von Cilibrasi entwickelte Open Source Software mit dem Namen CompLearn konnte mit Hilfe der NGD bereits Farben von Zahlen trennen oder niederländische Maler anhand der Titel ihrer Werke gruppieren.
Weitere mögliche Anwendungen wären etwa auch in einer Übersetzungssoftware zu finden.
Verwandte Verfahren
Ein anderes Verfahren zum Messen der Distanz zweier Informationen, die normalisierte Informationsdistanz (engl. normalized information distance, kurz NID) wurde bereits zuvor von Paul Vitanyi eingeführt, welches die Nähe der Vergleichsobjekte anhand ihrer Eigenschaften analysiert.
Quellen
- Vitanyi, Cilibrasi: Automatic Meaning Discovery Using Google (englisch)
- Computer ergooglen die Bedeutung von Worten
- Google's search for meaning (englisch)
Weblinks
- NGD-Rechner (englisch)
Siehe auch
| Dieses Dokument entstammt in seiner ersten oder einer späteren Version der deutschsprachigen Wikipedia. Es ist dort zu finden unter dem Stichwort Normalisierte_Google-Distanz, die Liste der bisherigen Autoren befindet sich in der Versionsliste; die Originalfassung kann dort auch bearbeitet werden. Alle Texte der Wikipedia und ihre Derivate stehen unter der GNU-Lizenz für freie Dokumentation. |
