Das Kefk Network Wiki befindet sich im Testbetrieb.


Termfrequenz

Aus Kefk.

Wechseln zu: Navigation, Suche
<imagemap>-Fehler: Bild ist ungültig oder nicht vorhanden Die Artikel Termfrequenz, Suchwortdichte und TF-IDF überschneiden sich thematisch. Hilf mit, die Artikel besser voneinander abzugrenzen oder zu vereinigen. Die Diskussion über diese Überschneidungen findet hier statt. Bitte äußere dich dort, bevor du den Baustein entfernst. Cjesch 13:31, 11. Dez. 2006 (CET)
Wikipedia
Dieses Dokument entstammt in seiner ersten oder einer späteren Version der deutschsprachigen Wikipedia. Es ist dort zu finden unter dem Stichwort Termfrequenz, die Liste der bisherigen Autoren befindet sich in der Versionsliste; die Originalfassung kann dort auch bearbeitet werden. Alle Texte der Wikipedia und ihre Derivate stehen unter der GNU-Lizenz für freie Dokumentation.

Die Termfrequenz (TF) gibt beim Information Retrieval die relative Häufigkeit eines Wortes beziehungsweise Termes in einem gesamten Dokument an. Sie dient als Indikator der Repräsentativität des Wortes für den Inhalt des Gesamtdokumentes. Die Termfrequenz wird unter Anderem in Verbindung mit der Inversen Dokumenthäufigkeit zur Gewichtung von Wörtern bei der Automatischen Indexierung eingesetzt.

Die Termfrequenz lässt sich berechnen als

TF(t,d)=\frac{h_d(t)}{a(d)}.

Wobei hd(t) die Häufigkeit des Termes t im Dokument d und a(d) die Anzahl der Terme im Dokument d bezeichnet. Häufig wird statt der direkten Anzahlen ihr Logarithmus verwendet, so dass

TF(t,d)=\frac{\log(h_d(t)+1)}{\log(a(d))}.

Im Argument des Zählers wird eins addiert, damit die Termfrequenz für nicht vorkommende Terme Null ist. Werte mit einer Termfrequenz unter einem bestimmten Schwellenwert können ggf. ignoriert werden. Sehr häufige aber nicht sinntragende Wörter wie Pronomen werden als Stoppworte aussorttiert.

Beispiel

Das aus einem Satz bestehende Dokument "Dumm bleibt dumm da helfen auch keine Pillen" enthält 8 Wörter, wobei das Wort "dumm" zwei mal und das Wort "Pillen" ein mal vorkommt. Die Termfrequenzen betragen ohne Logarithmierung TF = 2 / 8 = 0,25 bzw. TF = 1 / 8 = 0,125 und bei Verwendung des Logarithmus zur Basis zwei TF = log(3) / log(8) = 0,53 bzw. TF = log(2) / log(8) = 0,33.

Wikipedia
Dieses Dokument entstammt in seiner ersten oder einer späteren Version der deutschsprachigen Wikipedia. Es ist dort zu finden unter dem Stichwort Termfrequenz, die Liste der bisherigen Autoren befindet sich in der Versionsliste; die Originalfassung kann dort auch bearbeitet werden. Alle Texte der Wikipedia und ihre Derivate stehen unter der GNU-Lizenz für freie Dokumentation.
Persönliche Werkzeuge