Das Kefk Network Wiki befindet sich im Testbetrieb.


Spamfilter

Aus Kefk.

Wechseln zu: Navigation, Suche

Ein Spamfilter (Werbefilter) ist ein Computerprogramm oder Modul eines Programms zum Filtern von elektronischer unerwünschter Werbung (sogenannter Spam).

Klassischer Einsatzbereich ist das Spamfilter auf unerwünscht E-Mails als Modul eines E-Mail-Programms oder eigenständiges Computerprogramm, neuere Anwendungen von großer Bedeutung sind das Filtern betrachteter Websites auf Werbebanner, für Weblogs (Blogspam) oder Wikis (Linkspam).

Inhaltsverzeichnis

Ansatz der Kontrolle

Methoden der Kontrolle

Blacklist-Methode

Diese Methode überprüft den Inhalt der E-Mail nach bestimmten Ausdrücken bzw. Stichworten aus einer Blacklist. Ist der Ausdruck bzw. das Stichwort in der E-Mail enthalten, wird die E-Mail aussortiert. Diese Blacklists müssen im Allgemeinen manuell erstellt werden und sind entsprechend aufwendig zu verwalten. Außerdem ist die Trefferquote nicht sehr hoch, da hin und wieder Spam als gute E-Mail und gute E-Mail als Spam einsortiert werden können. Auch lassen sich solche Filter leicht umgehen: steht z. B. 'Viagra' in der Blacklist, wird der Filter 'Vla*gr-a' nicht erkennen. Lässt der Filter die Eingabe von regulären Ausdrücken zu, kann man jedoch entsprechend ausgefeilte Filtermuster verwenden, die alle denkbaren Schreibweisen berücksichtigen, z. B. v.{0,1}[!iíì1\|l].{0,1}[aáàãå@].{0,1}g.{0,1}r.{0,1}[aáàãå@]

Eines der bekanntesten Programme unter Linux und anderen Unix-Derivaten ist SpamAssassin, das jede Mail nach verschiedenen Kriterien (offensichtlich ungültige Absender, bekannte Spam-Textpassagen, HTML-Inhalt, in die Zukunft datierte Absendedaten usw.) bepunktet und ab einer bestimmten Punktzahl als Spam klassifiziert. Ebenfalls mit einer Blacklist arbeitet SPAVI, das außer der jeweiligen E-Mail selbst auch noch die in der E-Mail verlinkten Seiten auf verdächtige Begriffe untersucht.

Razor und Pyzor wiederum erzeugen zu jeder Mail einen Hash-Wert und überprüfen in zentralen Datenbanken, ob andere Personen, die diese Mail ebenfalls erhalten haben, sie als Spam klassifiziert haben oder nicht.

Bayes-Filter-Methode

Alternativ kann der Spam auch mit einem Bayes-Filter auf Grund der Bayesschen Wahrscheinlichkeit gefiltert werden. Das sind sogenannte selbstlernende Filter. Der Benutzer muss etwa die ersten 1000 E-Mails manuell einsortieren in Spam und Nicht-Spam. Danach erkennt das System fast selbstständig mit einer Trefferquote von meistens über 95% die Spam-E-Mail. Vom System fehlerhaft einsortierte E-Mails muss der Anwender manuell nachsortieren. Dadurch wird die Trefferquote stetig erhöht. Diese Methode ist der Blacklist-Methode meistens deutlich überlegen.

Diesen Mechanismus machen sich Bogofilter und Mozilla Thunderbird sowie der vor allem im deutschen Sprachraum beliebte Spamihilator in den aktuellen Versionen zunutze. Dabei muss das Programm jeweils vom Benutzer trainiert werden, bevor es zuverlässig Spam erkennt.

Eine dem Bayes-Filter artverwandte Methode ist das Markov-Filter. Er nutzt dazu eine Markov-Kette und ist effektiver als ein Bayes-Filter, wie Bill Yerazunis mit seinem Spamfilter CRM114 zeigen konnte.

Datenbank-basierte Lösungen

Im Usenet wurde schon in den 90er Jahren diskutiert, Spam aufgrund der in der Mail beworbenen URLs (und ggf. Telefonnummern) zu erkennen. Zwar können die Spammer die Nachrichten beliebig modifizieren und personalisieren, aber da es letztlich (bei UCE) immer darum geht, den Benutzer zu einer Kontaktaufnahme zu verleiten, und der mögliche Adressraum nicht unbegrenzt variabel ist, ermöglicht dieser Ansatz eine theoretisch sehr gute Erkennung. Besonders interessant ist dabei, dass keine Heuristiken verwendet werden, die immer das Risiko von Fehl-Erkennungen mit sich bringen. Aufgrund der technischen Anforderungen, Reaktionsgeschwindigkeiten usw. hielt man dieses jedoch für nicht praktikabel. Der Spamfilter „SpamStopsHere“ basiert (als zentral gehostete Lösung) im Kern jedoch auf genau dieser Idee und zeigt, dass dieses durchaus auch in der Praxis funktionieren kann.

Siehe auch

  • Spampal, Programm, das Listen der DNSBL-Anbieter Anbieter verwendet, ebenfalls viele Plugins, Proxy-Lösung (OpenSource, Freeware])
  • K9, Bayesscher Filter, Proxy-Lösung, hat in mehreren Tests (ct) gut abgeschnitten (Freeware)
  • Spambayes, Bayesscher Spamfilter, erhältlich als Outlook-Plugin oder als Proxy-Lösung für alle anderen Mail-Clients (OpenSource, Freeware)

Weblinks

Persönliche Werkzeuge