Die intuitive Argumentation wurde im Blogpost erklärt:
Wenn unser Ziel die Vorhersage ist, führt dies zu einer eindeutigen Verzerrung. Schlimmer noch, es wird eine permanente Verzerrung in dem Sinne sein, dass wir mit zunehmender Stichprobengröße keine konsistenten Schätzungen haben werden.
Das Problem der (künstlich) ausgeglichenen Daten ist also wahrscheinlich schlimmer als der unausgeglichene Fall.
Ausgeglichene Daten sind gut für die Klassifizierung geeignet, aber Sie verlieren offensichtlich Informationen über Erscheinungshäufigkeiten, die sich auf die Genauigkeitsmetriken selbst und die Produktionsleistung auswirken.
Angenommen, Sie erkennen handgeschriebene Buchstaben aus dem englischen Alphabet (26 Buchstaben). Wenn Sie das Erscheinungsbild jedes Buchstabens übersteuern, wird jeder Buchstabe mit einer Wahrscheinlichkeit von ungefähr 1/26 (richtig oder nicht) klassifiziert, sodass der Klassifizierer die tatsächliche Verteilung der Buchstaben in der ursprünglichen Stichprobe vergisst. Und es ist in Ordnung, wenn der Klassifikator in der Lage ist, jeden Buchstaben mit hoher Genauigkeit zu verallgemeinern und zu erkennen .
Aber wenn Genauigkeit und vor allem Verallgemeinerung nicht "so hoch" sind (ich kann Ihnen keine Definition geben - Sie können es sich nur als "schlimmsten Fall" vorstellen), werden die falsch klassifizierten Punkte höchstwahrscheinlich gleichmäßig auf alle Buchstaben verteilt , so etwas wie:
"A" was misclassified 10 times
"B" was misclassified 10 times
"C" was misclassified 11 times
"D" was misclassified 10 times
...and so on
Im Gegensatz zu ohne Ausgleich (unter der Annahme, dass "A" und "C" viel höhere Wahrscheinlichkeiten für das Auftreten im Text haben)
"A" was misclassified 3 times
"B" was misclassified 14 times
"C" was misclassified 3 times
"D" was misclassified 14 times
...and so on
So erhalten häufige Fälle weniger Fehlklassifizierungen. Ob es gut ist oder nicht, hängt von Ihrer Aufgabe ab. Für die natürliche Texterkennung könnte man argumentieren, dass Buchstaben mit höheren Häufigkeiten praktikabler sind, da sie die Semantik des Originaltexts bewahren und die Erkennungsaufgabe näher an die Vorhersage rücken (wobei Semantik Tendenzen darstellt ). Wenn Sie jedoch versuchen, so etwas wie einen Screenshot des ECDSA-Schlüssels zu erkennen (mehr Entropie -> weniger Vorhersage), hilft es nicht, die Daten unausgeglichen zu halten. Es kommt also wieder darauf an.
Der wichtigste Unterschied besteht darin, dass die Genauigkeitsschätzung selbst voreingenommen ist (wie Sie im Beispiel für ein ausgeglichenes Alphabet sehen können), sodass Sie nicht wissen, wie sich die seltensten oder häufigsten Punkte auf das Verhalten des Modells auswirken.
PS : Sie können jederzeit die Leistung der unausgeglichenen Klassifizierung verfolgen mit Precision / Recall - Metriken ersten und entscheiden , ob Sie hinzufügen müssen oder nicht balanciert.
p ( xich| θ)p ( xich| θ^)θ^ich- θichEs wird manchmal empfohlen, die Klassen entweder nach der Grundgesamtheit selbst oder nach Parametern neu auszugleichen, die aus einer größeren Stichprobe bekannt sind (daher besserer Schätzer). In der Praxis gibt es jedoch keine Garantie dafür, dass "größere Stichproben" identisch verteilt werden, da die Gefahr besteht, dass bei jedem Schritt voreingenommene Daten abgerufen werden (z. B. englische Briefe aus der Fachliteratur vs. Belletristik vs. die gesamte Bibliothek).
Diese Antwort sollte auch die Anwendbarkeitskriterien für die Bilanzierung klarstellen:
Das Klassenungleichgewichtsproblem wird dadurch verursacht, dass nicht genügend Muster der Minderheitenklasse vorhanden sind, und nicht durch das Verhältnis von positiven und negativen Mustern an sich. Wenn Sie über genügend Daten verfügen, tritt im Allgemeinen das "Klassenungleichgewichtsproblem" nicht auf
Als Fazit ist künstliches Balancieren selten nützlich, wenn der Trainingssatz groß genug ist. Das Fehlen statistischer Daten aus einer größeren, identisch verteilten Stichprobe deutet auch darauf hin, dass kein künstliches Ausgleichen erforderlich ist (insbesondere für die Vorhersage), da sonst die Qualität des Schätzers so gut ist wie "Wahrscheinlichkeit, auf einen Dinosaurier zu treffen":
Wie groß ist die Wahrscheinlichkeit, einen Dinosaurier auf der Straße zu treffen?
1/2 Entweder triffst du einen Dinosaurier oder du triffst keinen Dinosaurier