Bayessche-Filterung
Die Bayes´sche Filterung ist ein komplexes Filterverfahren bei dem der Spamfilter
mit jeder Mail lernt zu unterscheiden ob es sich um eine Spam-Nachricht oder
echte eMail handelt.
Im Zuge seiner Lernphase analysiert der Bayes´sche Filter jede Mail und unterscheidet
was für Wörter potentiellen Spam zugeordnet werden und welche nicht.
Diese Filtertechnologien sind allerdings nicht vollautomatisch.
Der Benutzer arbeitet mit seinem E-mail-Programmen seinen ganz persönlichen
Filter und trainiert diesen Punkt man kann sich das in etwa wie folgt vorstellen:
Der Benutzer bekommt eine E-Mail von einem Bekannten und er
kennzeichnet diese E-Mail als (Ham). Nun, ein paar Augenblicke
später, bekommt der Benutzer eine weitere E-Mail von einem Unbekannten mit Werbeinhalten
und dieses Mal kennzeichnet der Benutzer diese Mail als unerwünscht (Spam).
Der Bayes´sche Filter kann aber mehr. Der Filter "liest" die
Inhalte der E-Mails und sucht nachwiederkehrenden Wörtern gehen den Mails vorkommen.
Wenn nun zum Beispiel sehr oft das Wort: VIAGRA in einer E-Mail
vorkommt mit einem bestimmten Satzbaumuster so wird der Bayes´sche Filter
E-Mails dieser Art immer als Spam klassifizieren.
Das hat mit den Spam-Methoden der Spammer zu tun. Da Spammer
ja natürlich nicht jedem User im Internet tatsächlich eine einzige E-Mail schreiben,
sondern sich aus vorgefertigten Satzbausteinen bedienen. Diese Satzbausteine
sind gewissermaßen ähnlich der meisten Horoskope. Die Sätze sind so angeordnet,
dass sie für beinahe jede Lebens Konstellation treffen.
Nehmen wir eine solche Spammail mal und schauen uns
den Inhalt an:
Winter sale on V i agra and other drugs.
You won`t find better prices anywhere!
V alium - 180 PiIls - 370$
X anax - 180 PiIls - 316$
A mbien - 180 PiIls - 388$
S oma - 160 PiIls - 145$
V iagra - 100 PilIs - 209.99$
C ialis - 90 PiIls - 324$
U ltram - 120 PilIs - 155$
P hentermine - 90 PiIls - 261$
and many more...
Please click below and check out our offer. |
Zu aller erst fällt uns hierauf, dass der Spammer
das Wort Viagra mit 2 Leertasten auseinander geschrieben hat.
V_i_agra
Auf dieser Art hat er wohl gehofft den Filter zu entgehen. Mit den anderen
Begriffen hatte es jeweils auch so getan dass er eine Leerezeile in den
Begriff hinein gefügt hat. Doch warum hat unser Filter trotzdem angeschlagen?
Der Bayes´sche Filter reagiert auch auf Wortkonstellationen
und Begriffe. Wenn wir in unseren normalen E-Mails beispielsweise keine Dollarbeträge
oder Tabletten (Pills) erwähnt haben geschweige denn bestellt haben
----warum sollte diese E-Mail dann eine richtige von einem Freund sein?
Selbst wenn solch eine E-Mail vermeintlich tatsächlich
von einem Bekannten geschickt wird so wird der Filter diese trotzdem als
Spam klassifizieren weil der Inhalt so wie wir ihn hier vorfinden bereits
bereits als Spam klassifiziert haben.
Das soll auch so sein, da Spammer natürlich nicht
ihre eigene E-Mail-Adresse benutzen um Spam zu versenden, sondern sich
beispielsweise nicht genügend gesicherte Formularskript auf Webseiten
und so weiter zueigen machen.
[ Zurück zum Anfang ] |