Ich arbeite an einem Projekt zum maschinellen Lernen mit Daten, die bereits durch die Datenauswahl (stark) verzerrt sind.
Nehmen wir an, Sie haben einen Satz fest codierter Regeln. Wie erstellen Sie ein Modell für maschinelles Lernen, um es zu ersetzen, wenn alle Daten, die es verwenden kann, Daten sind, die bereits nach diesen Regeln gefiltert wurden?
Um die Dinge klarer zu machen, wäre das beste Beispiel die Kreditrisikobewertung : Die Aufgabe besteht darin, alle Kunden zu filtern, bei denen es wahrscheinlich ist, dass sie keine Zahlung leisten.
- Jetzt stammen die einzigen (gekennzeichneten) Daten, die Sie haben, von Kunden, die von den Regeln akzeptiert wurden, da Sie erst nach dem Akzeptieren sehen, ob jemand bezahlt oder nicht (offensichtlich). Sie wissen nicht, wie gut die Regeln sind und inwieweit sie sich auf die bezahlte bis nicht bezahlte Verteilung auswirken. Darüber hinaus haben Sie Daten von den Clients, die aufgrund des Regelsatzes abgelehnt wurden, unbeschriftet. Sie wissen also nicht, was mit diesen Kunden passiert wäre, wenn sie akzeptiert worden wären.
Zum Beispiel könnte eine der Regeln lauten: "Wenn das Alter des Kunden <18 Jahre ist, dann akzeptiere nicht"
Der Klassifizierer kann nicht lernen, wie er mit Clients umgeht, die nach diesen Regeln gefiltert wurden. Wie soll der Klassifikator hier Muster lernen?
Das Ignorieren dieses Problems würde dazu führen, dass das Modell Daten ausgesetzt wird, auf die es noch nie zuvor gestoßen ist. Grundsätzlich möchte ich hier den Wert von f (x) schätzen, wenn x außerhalb von [a, b] liegt.