Es würde Sie überraschen, herauszufinden, dass 80/20 ein häufig vorkommendes Verhältnis ist, das oft als Pareto-Prinzip bezeichnet wird . Es ist normalerweise eine sichere Wette, wenn Sie dieses Verhältnis verwenden.
Abhängig von der von Ihnen verwendeten Schulungs- / Validierungsmethode kann sich das Verhältnis jedoch ändern. Beispiel: Wenn Sie eine 10-fache Kreuzvalidierung verwenden, erhalten Sie bei jeder Falte einen Validierungssatz von 10%.
Es wurde untersucht, wie das richtige Verhältnis zwischen dem Trainingssatz und dem Validierungssatz ist :
Der Anteil der für den Validierungssatz reservierten Muster sollte umgekehrt proportional zur Quadratwurzel der Anzahl der frei einstellbaren Parameter sein.
In ihrer Schlussfolgerung geben sie eine Formel an:
Das Größenverhältnis von Validierungssatz (v) zu Trainingssatz (t), v / t, skaliert wie ln (N / h-max), wobei N die Anzahl der Familien von Erkennern und h-max die größte Komplexität dieser Familien ist.
Was sie unter Komplexität verstehen, ist:
Jede Erkennerfamilie ist durch ihre Komplexität gekennzeichnet, die sich auf die VC-Dimension , die Beschreibungslänge, die Anzahl der einstellbaren Parameter oder andere Komplexitätsmaße beziehen kann oder nicht .
Wenn Sie die erste Faustregel verwenden (der Alterationssatz sollte umgekehrt proportional zur Quadratwurzel der Anzahl der frei einstellbaren Parameter sein), können Sie daraus schließen, dass bei 32 einstellbaren Parametern die Quadratwurzel von 32 ~ 5,65 ist und der Bruchteil sein sollte 1 / 5,65 oder 0,177 (v / t). Etwa 17,7% sollten für die Validierung und 82,3% für die Schulung reserviert werden.