Das Kefk Network Wiki befindet sich im Testbetrieb.


Recall und Precision

Aus Kefk.

(Weitergeleitet von Precision)
Wechseln zu: Navigation, Suche

Vollständigkeit bzw. Recall und Genauigkeit bzw. Precision sind zwei Maße zur Beschreibung der Güte eines Suchergebnisses beim Information-Retrieval oder bei einer Recherche im Allgemeinen. Der Recall beschreibt die Vollständigkeit eines Suchergebnisses. Er ist definiert als der Anteil der bei einer Suche gefundenen relevanten Dokumente (bzw. Datensätze) an den relevanten Dokumenten der Grundgesamtheit. Die Precision beschreibt die Genauigkeit eines Suchergebnisses. Sie ist definiert als der Anteil der gefundenen relevanten Dokumente zu allen bei der Suche gefundenen Dokumenten.

Für die Evaluierung eines Information-Retrieval-Systems sollten die beiden zusammenhängenden Maße gemeinsam betrachtet werden. Im Allgemeinen sinkt mit steigendem Recall (mehr Treffer) die Precision (mehr irrelevante Ergebnisse) und umgekehrt sinkt mit steigender Precision (weniger irrelevante Ergebnisse) der Recall (mehr relevante Dokumente, die nicht gefunden werden), d.h. es besteht eine negative Korrelation. Stellt man das Verhältnis zwischen Recall und Precision in einem Diagramm dar, so wird der (höchste) Wert im Diagramm, an dem der Precision-Wert gleich dem Recall-Wert ist - also der Schnittpunkt des Precision-Recall-Diagramms mit der Identitätsfunktion - der Precision-Recall-Breakeven-Punkt genannt.

Für die Evaluierung des Information-Retrieval-Systems gibt es mit dem Fall-Out noch ein drittes Kriterium. Das Fall-Out beschreibt in negativer Weise die Güte des zu bewertenden Verfahrens, indem die Anzahl der gefundenen irrelevanten Dokumente durch die Gesamtanzahl irrelevanter Dokumente geteilt wird.

Inhaltsverzeichnis

Definition als Formel

\mbox{Recall}=\frac{||\{\mbox{relevante Dokumente}\}\cap\{\mbox{gefundene Dokumente}\}||}{||\{\mbox{relevante Dokumente}\}||}

\mbox{Precision}=\frac{||\{\mbox{relevante Dokumente}\}\cap\{\mbox{gefundene Dokumente}\}||}{||\{\mbox{gefundene Dokumente}\}||}

\mbox{Fall-Out}=\frac{||\{\mbox{irrelevante Dokumente}\}\cap\{\mbox{gefundene Dokumente}\}||}{||\{\mbox{irrelevante Dokumente}\}||}

Probabilistische Interpretation

Es ist auch möglich die Maße nicht als Verhältnis, sondern als Wahrscheinlichkeit zu interpretieren.

  • Recall ist die Wahrscheinlichkeit mit der ein (zufällig ausgewähltes) relevantes Dokument gefunden wird.
  • Precision ist die Wahrscheinlichkeit mit der ein (zufällig ausgewähltes) gefundenes Dokument relevant ist.
  • Fallout ist die Wahrscheinlichkeit mit der ein (zufällig ausgewähltes) irrelevantes Dokument gefunden wird.


Informationstheoretische Interpretation

Im informationstheoretischen Zusammenhang werden diese Eigenschaften auch mit ähnlicher Terminologie dargestellt. Hierfür wird erst die Grundlage der Berechnung dargestellt: true positive, false positive, false negative, true negative. Es wird ein erhaltenes Ergebnis mit dem gewünschten (wahren) Ergebnis verglichen.

wahres Ergebnis
 E1   E2 
erhaltenes
Ergebnis
E1 a
(true positive)
b
(false positive, Fehler 1. Art)
E2 c
(false negative, Fehler 2. Art)
d
(true negative)


Folgendermaßen werden aus diesen Grundlagen dann Precision und Recall berechnet:

\mbox{Recall}=\frac{a}{a+c}

\mbox{Precision}=\frac{a}{a+b}

Beispielrechnung

In einer Datenbank gibt es zu einer Suchanfrage 78 relevante Dokumente. Eine Suche liefert 32 relevante und 9 nicht relevante Dokumente zurück.

x = 32 (gefundene relevante Dokumente)

y = 9 (gefundene nicht relevante Dokumente)

z = 46 (relevante Dokumente die nicht gefunden wurden)

Recall: \frac{x}{(x+z)} = \frac{32}{(32+46)} = 0,41

Precision: \frac{x}{(x+y)} = \frac{32}{(32+9)} = 0,78

Die durchgeführte Suche hat eine Vollständigkeit (Recall) von 0,41 und eine Genauigkeit (Precision) von 0,78 erreicht.

Ein Problem bei der Berechnung des Recalls ist die Tatsache, dass man nur selten weiß, wie viele relevante Dokumente nicht gefunden wurden. Bei größeren Datenbanken, bei denen die Berechnung des absoluten Recalls besonders schwierig ist, wird deswegen mit dem relativen Recall gearbeitet. Dabei wird die gleiche Suche mit mehreren Suchmaschinen durchgeführt und die jeweils neuen relevanten Treffer zu den nicht gefundenen relevanten Dokumenten hinzu addiert. Mit der Rückfangmethode kann abgeschätzt werden, wie viele relevante Dokumente insgesamt existieren.

Literatur

  • Baeza-Yates, R.; Ribeiro-Neto, B. (1999). Modern Information Retrieval. New York: ACM Press, Addison-Wesley. Seiten 75 ff.
  • Womser-Hacker, Christa: Theorie des Information Retrieval III: Evaluierung. In: Grundlagen der praktischen Information und Dokumentation. München. Saur, 5. Auflage 2004. Seiten 227-235
  • van Rijsbergen, C.V.: Information Retrieval. London; Boston. Butterworth, 2nd Edition 1979

Weblinks

Persönliche Werkzeuge
Andere Sprachen