Das Kefk Network Wiki befindet sich im Testbetrieb.
TF-IDF
Aus Kefk.
| <imagemap>-Fehler: Bild ist ungültig oder nicht vorhanden | Die Artikel Termfrequenz, Suchwortdichte und TF-IDF überschneiden sich thematisch. Hilf mit, die Artikel besser voneinander abzugrenzen oder zu vereinigen. Die Diskussion über diese Überschneidungen findet hier statt. Bitte äußere dich dort, bevor du den Baustein entfernst. Cjesch 13:32, 11. Dez. 2006 (CET) |
| Dieses Dokument entstammt in seiner ersten oder einer späteren Version der deutschsprachigen Wikipedia. Es ist dort zu finden unter dem Stichwort TF-IDF, die Liste der bisherigen Autoren befindet sich in der Versionsliste; die Originalfassung kann dort auch bearbeitet werden. Alle Texte der Wikipedia und ihre Derivate stehen unter der GNU-Lizenz für freie Dokumentation. |
tf-idf (term frequency - inverse document frequency) ist eine Gewichtungsmethode für Terme (Schlüsselwörter) beim Information Retrieval.
Die term frequency (Termfrequenz) in einem gegebenen Dokument gibt einen Hinweis auf die Bedeutung dieses Terms für das Dokument.
Die inverse document frequency (Inverse Dokumenthäufigkeit) misst die allgemeine Bedeutung des Terms.
wobei ni die Auftrittshäufigkeit des interessierenden Terms im Dokument und der Nenner die Gesamtzahl aller Terme im Dokument ist
mit
- |D| : Gesamtzahl der Dokumente im Textkorpus
-
: Anzahl der Dokumente, in denen der Term tj auftritt (wenn
).
| Dieses Dokument entstammt in seiner ersten oder einer späteren Version der deutschsprachigen Wikipedia. Es ist dort zu finden unter dem Stichwort TF-IDF, die Liste der bisherigen Autoren befindet sich in der Versionsliste; die Originalfassung kann dort auch bearbeitet werden. Alle Texte der Wikipedia und ihre Derivate stehen unter der GNU-Lizenz für freie Dokumentation. |
