Diese Frage ist allgemein und langwierig, aber bitte nehmen Sie Kontakt mit mir auf.
In meiner Anwendung habe ich viele Datensätze, die jeweils aus ~ 20.000 Datenpunkten mit ~ 50 Features und einer einzelnen abhängigen Binärvariablen bestehen. Ich versuche, die Datensätze mithilfe einer regulierten logistischen Regression (R-Paket glmnet ) zu modellieren.
Im Rahmen meiner Analyse habe ich wie folgt Residuendiagramme erstellt. Für jedes Feature sortiere ich die Datenpunkte nach dem Wert dieses Features, teile die Datenpunkte in 100 Buckets auf und berechne dann den durchschnittlichen Ausgabewert und den durchschnittlichen Vorhersagewert innerhalb jedes Buckets. Ich zeichne diese Unterschiede auf.
Hier ist ein Beispiel für ein Residuendiagramm:
In der obigen Darstellung hat das Merkmal einen Bereich von [0,1] (mit einer starken Konzentration von 1). Wie Sie sehen können, scheint das Modell bei einem niedrigen Merkmalswert darauf ausgerichtet zu sein, die Wahrscheinlichkeit einer 1-Ausgabe zu überschätzen. Beispielsweise überschätzt das Modell im ganz linken Bereich die Wahrscheinlichkeit um etwa 9%.
Mit diesen Informationen möchte ich die Feature-Definition auf einfache Weise ändern, um diese Verzerrung grob zu korrigieren. Änderungen mögen ersetzen
oder
Wie kann ich das machen? Ich bin auf der Suche nach einer allgemeinen Methode, mit der ein Mensch schnell durch alle ~ 50 Diagramme scrollen und Änderungen vornehmen und dies für alle Datensätze tun und häufig wiederholen kann, um die Modelle auf dem neuesten Stand zu halten, während sich die Daten im Laufe der Zeit entwickeln.
Ist das überhaupt der richtige Ansatz? Google-Suchanfragen nach "Restanalyse der logistischen Regression" liefern nicht viele Ergebnisse mit guten praktischen Ratschlägen. Sie scheinen darauf fixiert zu sein, die Frage zu beantworten: "Passt dieses Modell?" und bieten verschiedene Tests wie Hosmer-Lemeshow zur Beantwortung an. Aber es ist mir egal, ob mein Modell gut ist, ich möchte wissen, wie ich es verbessern kann!