Ich habe Daten beschriftet, die aus 10000 positiven und 50000 negativen Beispielen bestehen, was insgesamt 60000 Beispiele ergibt. Offensichtlich sind diese Daten unausgewogen.
Nehmen wir nun an, ich möchte meinen Validierungssatz erstellen und dazu 10% meiner Daten verwenden. Meine Frage lautet wie folgt:
Sollte ich sicherstellen, dass mein Validierungssatz AUCH unausgeglichen ist (als Anspielung auf die tatsächliche Verteilung des Trainingssatzes), oder sollte ich sicherstellen, dass mein Validierungssatz ausgeglichen ist? Sollte mein Validierungssatz beispielsweise aus folgenden Elementen bestehen:
- 10% positives Beispiel + 10% negatives, was 1000+ und 5000 Beispiele ergibt. (Dieser Validierungssatz spiegelt das ursprüngliche Datenungleichgewicht wider.)
- Oder sollte der Validierungssatz aus beispielsweise 10% positiv, 1000+ und (10/5 = 2%) negativ, ebenfalls 1000 Beispiele, bestehen?
(Gleiche Frage für den Testsatz).
Es scheint viele Methoden zu geben, wie man mit unausgeglichenen Daten trainiert , aber nirgends kann ich Best Practices finden, um festzustellen, ob mein Validierungssatz AUCH das ursprüngliche Ungleichgewicht widerspiegeln sollte oder nicht. Schließlich mache ich KEINE Kreuzvalidierung, sondern verwende einen einzelnen Validierungssatz und ein neuronales Netzwerk.
Vielen Dank!