Ist ein Up- oder Down-Sampling von unausgeglichenen Daten tatsächlich so effektiv? Warum?

Ich höre häufig Up- oder Down-Sampling von Daten, die als Mittel zur Behandlung der Klassifizierung unausgeglichener Daten diskutiert werden.

Ich verstehe, dass dies nützlich sein kann, wenn Sie mit einem binären (im Gegensatz zu einem probabilistischen oder Score-basierten) Klassifikator arbeiten und ihn als Black Box behandeln. Daher sind Stichprobenschemata Ihre einzige Möglichkeit, seine Position auf der "ROC-Kurve" zu optimieren "(in Anführungszeichen, denn wenn Ihr Klassifikator von Natur aus binär ist, hat er vermutlich keine echte ROC-Kurve, aber es gilt immer noch das gleiche Konzept, falsch positive und falsch negative Ergebnisse auszutauschen).

Es scheint jedoch, dass die gleiche Rechtfertigung nicht gilt, wenn Sie tatsächlich Zugang zu einer Punktzahl haben, die Sie später als Schwellenwert festlegen, um eine Entscheidung zu treffen. Ist Up-Sampling in diesem Fall nicht nur eine Ad-hoc-Methode, um eine Ansicht über Ihren gewünschten Kompromiss zwischen falsch positiven und falsch negativen Ergebnissen auszudrücken, wenn Sie über viel bessere Tools wie die tatsächliche ROC-Analyse verfügen? Es scheint in diesem Fall seltsam zu sein, zu erwarten, dass Up-Sampling oder Down-Sampling etwas anderes bewirken, als den "Prior" Ihres Klassifikators für jede Klasse zu ändern (dh die bedingungslose Wahrscheinlichkeit, diese Klasse zu sein, die Basislinienvorhersage) - ich würde nicht Erwarten Sie nicht, dass sich das "Odds Ratio" des Klassifikators ändert (wie stark der Klassifikator seine Basislinienvorhersage basierend auf den Kovariaten anpasst).

Meine Frage lautet also: Wenn Sie einen Klassifikator haben, der keine binäre Blackbox ist, gibt es Gründe, zu erwarten, dass Up- oder Down-Sampling einen viel besseren Effekt hat, als den Schwellenwert nach Ihren Wünschen anzupassen? Wenn dies nicht der Fall ist, gibt es empirische Studien, die hinreichend große Auswirkungen für das Up- oder Down-Sampling auf angemessene Leistungsmetriken zeigen (z. B. keine Genauigkeit)?

classification roc unbalanced-classes

— Ben Kuhn
quelle

Wenn Sie zuerst eine Stichprobe sammeln möchten, um eine Klassifizierung anhand dieser Ergebnisse durchzuführen, ist möglicherweise auch aus Kostengründen eine Unterabtastung erforderlich.

In diesem Fall geben Ihre Schätzmethoden jedoch normalerweise keine Wahrscheinlichkeiten auf Bevölkerungsebene zurück. Sie hängen von dem verwendeten Stichprobenschema ab.

Hier ist ein Beispiel:

/stats/127476/inference-possibilities-for-matched-case-control-study

— Analytiker
quelle

Sicher. Ich wundere mich eher über das Downsampling von Daten, die Sie bereits haben, als über das Undersampling während der Datenerfassung.

— Ben Kuhn