Mein Verständnis ist, dass wir mit Kreuzvalidierung und Modellauswahl versuchen, zwei Dinge anzusprechen:
P1 . Schätzen Sie den zu erwartenden Bevölkerungsverlust beim Training mit unserer Stichprobe
P2 . Messen Sie und berichten Sie unsere Unsicherheit dieser Schätzung (Varianz, Konfidenzintervalle, Verzerrung, etc.)
Es scheint üblich zu sein, wiederholte Kreuzvalidierungen durchzuführen, da dies die Varianz unseres Schätzers verringert.
In Bezug auf Berichterstellung und Analyse ist meines Erachtens die interne Validierung besser als die externe Validierung, weil:
Es ist besser zu berichten:
- Die Statistiken unseres Schätzers, z. B. Konfidenzintervall, Varianz, Mittelwert usw. für die vollständige Stichprobe (in diesem Fall die CV-Stichprobe).
als Berichterstattung:
Der Verlust unseres Schätzers bei einer Hold-out-Teilmenge der ursprünglichen Stichprobe, da:
(i) Dies wäre eine einzelne Messung ( auch wenn wir unseren Schätzer mit CV auswählen )
(ii) Unser Schätzer für diese einzelne Messung wäre an einem Satz (z. B. dem CV-Satz) trainiert worden, der kleiner ist als unsere ursprüngliche Stichprobe, da wir Platz für den Hold-Out-Satz schaffen müssen. Dies führt zu einer voreingenommeneren (pessimistischen) Schätzung in P1 .
Ist das richtig? Wenn nicht warum?
Hintergrund:
Es ist einfach, Lehrbücher zu finden, in denen empfohlen wird, die Stichprobe in zwei Sätze zu unterteilen:
- Das CV- Set, das anschließend und wiederholt in Zug- und Validierungs- Sets unterteilt wird.
- Das Hold-Out- Set (Test-Set), das nur am Ende verwendet wird, um die Leistung des Schätzers zu melden
Meine Frage ist ein Versuch, die Vorzüge und Vorteile dieses Lehrbuchansatzes zu verstehen, da unser Ziel darin besteht, die Probleme P1 und P2 zu Beginn dieses Beitrags wirklich anzusprechen . Aus meiner Sicht ist die Berichterstattung über das Hold-Out-Test-Set eine schlechte Praxis, da die Analyse der CV-Stichprobe aussagekräftiger ist.
Geschachtelte K-Falte vs. wiederholte K-Falte:
Grundsätzlich kann man Hold-out mit regulärem K-Falz kombinieren , um geschachtelte K-Falz zu erhalten . Dies würde es uns ermöglichen, die Variabilität unseres Schätzers zu messen, aber es scheint mir, dass bei der gleichen Anzahl von trainierten Gesamtmodellen (Gesamtanzahl von Falten) wiederholte K-Faltungen Schätzer ergeben würden, die weniger verzerrt und genauer sind als verschachtelte K- falten. Um das zu sehen:
- Wiederholte K-Faltung verwendet einen größeren Anteil unserer Gesamtstichprobe als geschachtelte K-Faltung für dieselbe K (dh, dies führt zu einer geringeren Verzerrung).
- 100 Iterationen ergeben nur 10 Messungen unseres Schätzers in verschachtelter K-Falte (K = 10), 100 Messungen in K-Falte (mehr Messungen führen zu einer geringeren Varianz in P2 )
Was ist falsch an dieser Argumentation?