Ich habe eine Klassifizierungsaufgabe mit einer Reihe von Prädiktoren (von denen einer der informativste ist), und ich verwende das MARS- Modell, um meinen Klassifizierer zu konstruieren (ich interessiere mich für ein einfaches Modell und würde glms zur Veranschaulichung verwenden) auch gut). Jetzt habe ich ein großes Klassenungleichgewicht in den Trainingsdaten (ungefähr 2700 negative Stichproben für jede positive Stichprobe). Ähnlich wie bei Information Retrieval-Aufgaben geht es mir eher darum, die besten positiven Testproben vorherzusagen. Aus diesem Grund ist mir die Leistung bei Precision Recall-Kurven wichtig.
Zunächst habe ich das Modell einfach anhand meiner Trainingsdaten trainiert, wobei das Klassenungleichgewicht beibehalten wurde. Ich visualisiere mein trainiertes Modell in Rot und die wichtigsten Eingaben in Blau.
Schulung zu unsymmetrischen Daten, Auswertung zu unsymmetrischen Daten :
In der Annahme, dass das Klassenungleichgewicht das Modell aus dem Gleichgewicht bringt, habe ich die positiven Trainingspunkte hochgerechnet, um einen ausgeglichenen Trainingsdatensatz zu erhalten, da das Lernen der positivsten Stichproben ein winziger Teil des gesamten Datensatzes ist. Wenn ich die Leistung auf dem ausgewogenen Trainingsset aufzeichne, bekomme ich gute Leistung. Sowohl in der PR- als auch in der ROC-Kurve schneidet mein trainiertes Modell besser ab als die Eingaben.
Schulung zu (hochgerechneten) ausgeglichenen Daten, Auswertung auch zu (hochgerechneten) ausgeglichenen Daten:
Wenn ich jedoch dieses Modell verwende, das auf den ausgeglichenen Daten trainiert ist, um das ursprüngliche, nicht ausgeglichene Trainingsset vorherzusagen, erhalte ich immer noch eine schlechte Leistung auf der PR-Kurve.
Schulung zu (hochgerechneten) ausgeglichenen Daten, Auswertung zu ursprünglichen nicht ausgeglichenen Daten:
Meine Fragen sind also:
- Zeigt die Visualisierung der PR-Kurve eine schlechtere Leistung meines trainierten Modells (rot), während die ROC-Kurve aufgrund des Klassenungleichgewichts Verbesserungen zeigt?
- Können Resampling / Upsampling / Downsampling-Ansätze dies beheben, um das Training zu zwingen, sich auf den Bereich mit hoher Präzision / geringem Rückruf zu konzentrieren?
- Gibt es eine andere Möglichkeit, das Training auf den Bereich mit hoher Präzision und geringem Rückruf zu konzentrieren?