In einer einfachen Klassifikation haben wir zwei Klassen: Klasse-0 und Klasse-1. In einigen Daten habe ich nur Werte für Klasse 1, also keine für Klasse 0. Jetzt denke ich darüber nach, ein Modell zu erstellen, um die Daten für Klasse 1 zu modellieren. Wenn also neue Daten kommen, wird dieses Modell auf die neuen Daten angewendet und findet eine Wahrscheinlichkeit, die angibt, wie wahrscheinlich es ist, dass neue Daten zu diesem Modell passen. Wenn ich dann mit einem Schwellenwert vergleiche, kann ich unangemessene Daten filtern.
Meine Fragen sind:
- Ist dies ein guter Weg, um mit solchen Problemen zu arbeiten?
- Kann für diesen Fall ein RandomForest-Klassifikator verwendet werden? Muss ich künstliche Daten für Klasse 0 hinzufügen, die der Klassifizierer hoffentlich als Rauschen betrachtet?
- Irgendeine andere Idee könnte bei diesem Problem helfen?