Ich höre häufig Up- oder Down-Sampling von Daten, die als Mittel zur Behandlung der Klassifizierung unausgeglichener Daten diskutiert werden.
Ich verstehe, dass dies nützlich sein kann, wenn Sie mit einem binären (im Gegensatz zu einem probabilistischen oder Score-basierten) Klassifikator arbeiten und ihn als Black Box behandeln. Daher sind Stichprobenschemata Ihre einzige Möglichkeit, seine Position auf der "ROC-Kurve" zu optimieren "(in Anführungszeichen, denn wenn Ihr Klassifikator von Natur aus binär ist, hat er vermutlich keine echte ROC-Kurve, aber es gilt immer noch das gleiche Konzept, falsch positive und falsch negative Ergebnisse auszutauschen).
Es scheint jedoch, dass die gleiche Rechtfertigung nicht gilt, wenn Sie tatsächlich Zugang zu einer Punktzahl haben, die Sie später als Schwellenwert festlegen, um eine Entscheidung zu treffen. Ist Up-Sampling in diesem Fall nicht nur eine Ad-hoc-Methode, um eine Ansicht über Ihren gewünschten Kompromiss zwischen falsch positiven und falsch negativen Ergebnissen auszudrücken, wenn Sie über viel bessere Tools wie die tatsächliche ROC-Analyse verfügen? Es scheint in diesem Fall seltsam zu sein, zu erwarten, dass Up-Sampling oder Down-Sampling etwas anderes bewirken, als den "Prior" Ihres Klassifikators für jede Klasse zu ändern (dh die bedingungslose Wahrscheinlichkeit, diese Klasse zu sein, die Basislinienvorhersage) - ich würde nicht Erwarten Sie nicht, dass sich das "Odds Ratio" des Klassifikators ändert (wie stark der Klassifikator seine Basislinienvorhersage basierend auf den Kovariaten anpasst).
Meine Frage lautet also: Wenn Sie einen Klassifikator haben, der keine binäre Blackbox ist, gibt es Gründe, zu erwarten, dass Up- oder Down-Sampling einen viel besseren Effekt hat, als den Schwellenwert nach Ihren Wünschen anzupassen? Wenn dies nicht der Fall ist, gibt es empirische Studien, die hinreichend große Auswirkungen für das Up- oder Down-Sampling auf angemessene Leistungsmetriken zeigen (z. B. keine Genauigkeit)?