Eine Boosting-Strategie kann die Leistung Ihres Modells verbessern, daher ist es einen Versuch wert. In Bezug auf inkrementelles / Online-Lernen ist mir kein Paket in R bekannt, das es implementiert (andere, bitte korrigieren Sie mich, wenn ich falsch liege). In Scikit Learn gibt es Out-of-Core-Klassifikatoren , die inkrementelles Lernen ermöglichen. Wenn Sie jedoch an die Verwendung von R gebunden sind, haben Sie möglicherweise keine andere Wahl, als Ihr eigenes inkrementelles Modell zu schreiben. In beiden Fällen erhalten Sie möglicherweise einen Eindruck davon, wo Sie anfangen sollen, wenn Sie sich die Out-of-Core-Klassifikatoren von Scikit Learn ansehen.
Ein weiteres zu beachtendes Detail ist das Ausmaß, in dem die Aktualisierung des Modells bei einem einzelnen falsch positiven oder falsch negativen Ergebnis die Leistung des Modells verbessert. Im Bereich Betrug gibt es im Allgemeinen Tausende bis Millionen Mal mehr Fälle von Nichtbetrug als Betrug. Daher ist es wichtig zu versuchen, zu lernen, jede Betrugsinstanz korrekt zu unterscheiden, aber das Aktualisieren eines Modells auf einer einzelnen Betrugsinstanz wird das Modell wahrscheinlich nicht wesentlich ändern. Überlegen Sie sich andere Strategien, um das Modell dazu zu bringen, Betrugsfällen mehr Bedeutung beizumessen.
Die einfachste Möglichkeit, Ihr überwachtes Modell auf der Grundlage des Feedbacks menschlicher Ermittler zu verbessern, besteht darin, ein separates Modell von den korrigierten Instanzen zu erstellen (dh den falsch vorhergesagten Instanzen, die nach ordnungsgemäßer Kennzeichnung erstellt wurden). Sie könnten dann Ihre beiden Modelle über die Klassifizierung zukünftiger Instanzen "abstimmen" lassen, indem Sie ihre vorhergesagten Klassenmitgliedschaften aggregieren. Zum Beispiel ModelA glaubt Instance1 ist [Betrug: 0,65, Nicht Betrug: 0,35], während Modell B glaubt Instance1 ist [Betrug: 0,47, Nicht Betrug: 0,53]. Die Vorhersage des Ensembles wäre somit [Betrug: (0,65 + 0,47) / 2 = 0,56, Nicht-Betrug: (0,35 + 0,53) / 2 = 0,44].
Wenn Ihr ursprüngliches Modell eine bessere Leistung als der Zufall erbringt, ist die Anzahl der korrekt klassifizierten Instanzen größer als die Anzahl der falsch klassifizierten Instanzen. Daher möchten Sie den Modellen nicht das gleiche Gewicht zuweisen, wenn sie auf einer unverhältnismäßig großen Anzahl von Instanzen trainiert werden. Es gibt zwei einfache Optionen, um diese Ungleichheit zu beseitigen: 1) Warten Sie, bis Sie genügend korrigierte Instanzen gesammelt haben, um ungefähr der Anzahl zu entsprechen, auf der das ursprüngliche Modell trainiert wurde, oder 2) Weisen Sie jedem Modell ein Gewicht zu, basierend auf der Leistung des Modells für einen Validierungssatz.