Nehmen wir der Einfachheit halber an, ich arbeite am klassischen Beispiel von Spam- / Nicht-Spam-E-Mails.
Ich habe 20000 E-Mails. Davon weiß ich, dass 2000 Spam sind, aber ich habe kein Beispiel für Nicht-Spam-E-Mails. Ich möchte vorhersagen, ob es sich bei den verbleibenden 18000 um Spam handelt oder nicht. Im Idealfall ist das gesuchte Ergebnis eine Wahrscheinlichkeit (oder ein p-Wert), dass es sich bei der E-Mail um Spam handelt.
Mit welchen Algorithmen kann ich in dieser Situation eine vernünftige Vorhersage treffen?
Im Moment denke ich an eine entfernungsbasierte Methode, die mir sagt, wie ähnlich meine E-Mail einer bekannten Spam-E-Mail ist. Welche Möglichkeiten habe ich?
Kann ich generell eine überwachte Lernmethode anwenden oder muss ich dafür negative Fälle in meinem Trainingsset haben? Beschränke ich mich auf unbeaufsichtigte Lernansätze? Was ist mit halbüberwachten Methoden?