Größere Validierungssätze liefern genauere Schätzungen der Leistung außerhalb der Stichprobe. Aber wie Sie bemerkt haben, kann diese Schätzung zu einem bestimmten Zeitpunkt so genau sein, wie Sie es benötigen, und Sie können grobe Vorhersagen darüber treffen, wie groß die Validierungsstichprobe sein muss, um diesen Punkt zu erreichen.
Für eine einfache korrekte / inkorrekte Klassifikationsgenauigkeit können Sie den Standardfehler der Schätzung als (Standardabweichung einer Bernouilli - Variablen) berechnen, wobei die Wahrscheinlichkeit einer korrekten Klassifikation ist, und ist die Größe des Validierungssatzes. Natürlich weißt du , aber du könntest eine Vorstellung von seiner Reichweite haben. Angenommen, Sie erwarten eine Genauigkeit zwischen 60 und 80% und möchten, dass Ihre Schätzungen einen Standardfehler von weniger als 0,1% aufweisen:
Wie groß sollte (die Größe von das validierungsset) sein? Für wir:
Für pnp √p(1−p)/n−−−−−−−−−√pnpnp=0,6n> 0,6 - 0,6 2
p(1−p)/n−−−−−−−−−√<0.001
np=0.6p=0,8n>0,8-0,82n>0.6−0.620.0012=240,000
p=0.8Wir erhalten:
Dies zeigt uns, dass Sie weniger als 5% Ihrer 5 Millionen Datenproben für die Validierung verwenden könnten. Dieser Prozentsatz sinkt, wenn Sie eine höhere Leistung erwarten oder insbesondere, wenn Sie mit einem niedrigeren Standardfehler Ihrer Out-of-Sample-Leistungsschätzung zufrieden sind (z. B. mit und für eine se <1% benötigen Sie nur 2100 Validierungsmuster oder weniger als ein Zwanzigstel Prozent Ihrer Daten).
p=0,7n>0.8−0.820.0012=160,000
p=0.7
Diese Berechnungen zeigen auch, dass Tim in seiner Antwort darauf hingewiesen hat, dass die Genauigkeit Ihrer Schätzungen von der absoluten Größe Ihres Validierungssatzes (dh von ) abhängt und nicht von seiner Größe im Verhältnis zum Trainingssatz.n
(Ich könnte auch hinzufügen, dass ich hier eine repräsentative Stichprobe annehme. Wenn Ihre Daten sehr heterogen sind, müssen Sie möglicherweise größere Validierungssätze verwenden, um sicherzustellen, dass die Validierungsdaten dieselben Bedingungen usw. wie Ihre Zug- und Testdaten enthalten. )