Ich habe 2 Datensätze, einen mit positiven Instanzen dessen, was ich erkennen möchte, und einen mit unbeschrifteten Instanzen. Welche Methoden kann ich verwenden?
Angenommen, wir möchten die Erkennung von Spam-E-Mails anhand einiger strukturierter E-Mail-Merkmale verstehen. Wir haben einen Datensatz mit 10000 Spam-E-Mails und einen Datensatz mit 100000 E-Mails, für die wir nicht wissen, ob es sich um Spam handelt oder nicht.
Wie können wir dieses Problem angehen (ohne die unbeschrifteten Daten manuell zu kennzeichnen)?
Was können wir tun, wenn wir zusätzliche Informationen über den Anteil von Spam in den unbeschrifteten Daten haben (dh wenn wir schätzen, dass zwischen 20 und 40% der 100000 unbeschrifteten E-Mails Spam sind)?