Das Argument, das das Papier zu machen scheint, erscheint mir seltsam.
Dem Papier zufolge besteht das Ziel von CV darin, , die erwartete prädiktive Leistung des Modells, anhand neuer Daten zu schätzen , vorausgesetzt, das Modell wurde anhand des beobachteten Datensatzes S trainiert . Wenn wir führen k -fach CV, wir eine Schätzung erhalten A dieser Zahl. Aufgrund der zufälligen Verteilung von S in k Falten, das ist ein Zufallsvariable A ~ f ( A ) mit einem Mittelwert μ k und die Varianz σ 2 k . Im Gegensatz dazu liefert der n- fach wiederholte CV eine Schätzung mit dem gleichen Mittelwertα2SkEIN^SkEIN^∼ f( A )μkσ2kn aber kleinere Varianz σ 2 k / n .μkσ2k/ n
Offensichtlich ist . Diese Tendenz müssen wir akzeptieren.α2≠ μk
Der erwartete Fehler wird für kleinere größer n , und wird die größte sein für n = 1 , zumindest unter vernünftigen Annahmen über f ( A ) , beispielsweise wenn A ˙ ~ N ( μ k , σ 2 k / n ) . Mit anderen Worten, eine wiederholte CV ermöglicht es, eine genauere Schätzung von μ k zu erhaltenE [ | α2- A^|2]nn = 1f( A )EIN^∼˙N( μk, σ2k/ n)μkund es ist eine gute Sache, weil es eine genauere Schätzung von .α2
Daher ist ein wiederholter Lebenslauf genauer als ein nicht wiederholter Lebenslauf.
Die Autoren streiten sich damit nicht! Stattdessen behaupten sie, basierend auf den Simulationen, dass
Das Reduzieren der Varianz [durch Wiederholen von CV] ist in vielen Fällen nicht sehr nützlich und im Wesentlichen eine Verschwendung von Rechenressourcen.
Dies bedeutet nur, dass in ihren Simulationen ziemlich niedrig war; und tatsächlich war die niedrigste verwendete Stichprobengröße 200 , was wahrscheinlich groß genug ist, um kleine σ 2 k zu ergeben . (Der Unterschied in den Schätzungen, die mit nicht wiederholtem CV und 30-fach wiederholtem CV erhalten werden, ist immer gering.) Bei kleineren Stichprobengrößen ist mit einer größeren Varianz zwischen den Wiederholungen zu rechnen.σ2k200σ2k
CAVEAT: Konfidenzintervalle!
Ein weiterer Punkt, den die Autoren ansprechen, ist der folgende
Die Meldung von Konfidenzintervallen [bei wiederholter Kreuzvalidierung] ist irreführend.
Es scheint, dass sie sich auf Konfidenzintervalle für den Mittelwert über CV-Wiederholungen beziehen. Ich stimme voll und ganz zu, dass dies eine bedeutungslose Sache ist! Je öfter CV wiederholt wird, desto kleiner wird dieser CI sein, aber niemand interessiert sich für den CI um unsere Schätzung von ! Wir kümmern uns um den CI um unsere Schätzung von α 2 .μkα2
Die Autoren berichten auch über CIs für den nicht wiederholten Lebenslauf, und mir ist nicht ganz klar, wie diese CIs konstruiert wurden. Ich denke, dies sind die CIs für die Mittelwerte über die Falten. Ich würde argumentieren, dass diese CIs auch ziemlich bedeutungslos sind!k
Schauen Sie sich eines ihrer Beispiele an: die Genauigkeit des adult
Datensatzes mit dem NB-Algorithmus und der Stichprobengröße 200. Sie erhalten 78,0% bei nicht wiederholtem Lebenslauf, CI (72,26, 83,74), 79,0% (77,21, 80,79) bei 10-fach wiederholtem Lebenslauf und 79,1% (78,07, 80,13) bei 30-fach wiederholtem Lebenslauf. Alle diese CIs sind nutzlos, einschließlich der ersten. Die beste Schätzung von liegt bei 79,1%. Dies entspricht 158 Erfolgen von 200. Dies ergibt ein binomiales Konfidenzintervall von 95% von (72,8, 84,5) - sogar breiter als das erste gemeldete. Wenn ich ein CI melden wollte , ist dies das, was ich melden würde.μk
ALLGEMEINER CAVEAT: Varianz des Lebenslaufs.
Sie haben diesen wiederholten Lebenslauf geschrieben
hat sich zu einer beliebten Technik zur Verringerung der Varianz der Kreuzvalidierung entwickelt.
μkk = Nk
α1S