Die Spam-Filterung, insbesondere in E-Mails, wurde durch neuronale Netze revolutioniert. Hier einige Artikel, die eine gute Lektüre zu diesem Thema bieten:
Über neuronale Netze und die Zukunft von Spam AC Cosoi, MS Vlad, V. Sgarciu
http://ceai.srait.ro/index.php/ceai/article/viewFile/18/8
Intelligente wortbasierte Spamfiltererkennung mithilfe multineuraler Netzwerke Ann Nosseir, Khaled Nagati und Islam Taj-Eddin
http://www.ijcsi.org/papers/IJCSI-10-2-1-17-21.pdf
Spam-Erkennung mithilfe adaptiver neuronaler Netze: Adaptive Resonanztheorie David Ndumiyana, Richard Gotora und Tarisai Mupamombe
http://onlineresearchjournals.org/JPESR/pdf/2013/apr/Ndumiyana%20et%20al.pdf
BEARBEITEN: Die grundlegende Intuition hinter der Verwendung eines neuronalen Netzwerks zur Unterstützung der Spam-Filterung besteht darin, Begriffe zu gewichten, die darauf basieren, wie oft sie mit Spam in Verbindung gebracht werden.
Neuronale Netze können am schnellsten in einer überwachten Umgebung trainiert werden - Sie geben die Klassifizierung des Satzes explizit in der Trainingsumgebung an. Ohne auf das Wesentliche einzugehen, kann die Grundidee mit folgenden Sätzen veranschaulicht werden:
Text = "Wie wird sich der Verlust des Viagra-Patents auf Pfizer auswirken?", Spam = false Text = "Günstiges Viagra jetzt kaufen", Spam = true Text = "Online-Apotheke Viagra Cialis Lipitor", Spam = true
Für ein zweistufiges neuronales Netzwerk berechnet die erste Stufe die Wahrscheinlichkeit von Spam basierend darauf, ob das Wort im Satz vorhanden ist. Also aus unserem Beispiel:
viagra => 66% kaufen => 100% Pfizer => 0% etc ..
Dann werden für die zweite Stufe die Ergebnisse in der ersten Stufe als Variablen in der zweiten Stufe verwendet:
viagra & buy => 100% Pfizer & viagra => 0%
Diese Grundidee wird für viele der Permutationen aller Wörter in Ihren Trainingsdaten ausgeführt. Die einmal trainierten Endergebnisse sind im Grunde genommen nur eine Gleichung, die basierend auf dem Kontext der Wörter im Satz eine Wahrscheinlichkeit für Spam zuweisen kann. Stellen Sie den Spam-Schwellenwert ein und filtern Sie alle Daten heraus, die höher als dieser Schwellenwert sind.