10-fache Kreuzvalidierung versus einmalige Kreuzvalidierung

Ich mache eine verschachtelte Kreuzvalidierung. Ich habe gelesen, dass eine einmalige Kreuzvalidierung voreingenommen sein kann (ich erinnere mich nicht, warum).

Ist es besser, die 10-fache Kreuzvalidierung oder die einmalige Kreuzvalidierung zu verwenden, abgesehen von der längeren Laufzeit für die einmalige Kreuzvalidierung?

machine-learning cross-validation

— Maschinen
quelle

Erinnerst du dich, wo du das gelesen hast?

— Richard Hardy

Haben Sie diesen Beitrag über Voreingenommenheit gesehen? Auch diese Antwort hat ein Zitat von einem sehr guten Buch , das 5-fache oder 10-fache Kreuzvalidierung empfiehlt.

— Eric Farng

Dieser Beitrag ist ein wenig verwandt.

— Richard Hardy

Vielen Dank. Alles in allem kann man also sagen, dass ich einen 10-fachen Lebenslauf anstatt eines einzigen Lebenslaufs wählen soll? Gilt das auch für einen kleinen Datensatz?

— Maschinen

@Thomas, wenn Ihr Datensatz zu klein wird, machen Sie fast LOO-CV, sodass der Vorteil des 10-fachen CV mit abnehmender Größe Ihres Datensatzes abnimmt.

— Determan

Antworten:

Nur um etwas zur Antwort von @SubravetiSuraj hinzuzufügen (+1)

Die Kreuzvalidierung liefert eine pessimistisch verzerrte Schätzung der Leistung, da sich die meisten statistischen Modelle verbessern, wenn der Trainingssatz vergrößert wird. Dies bedeutet, dass die k-fache Kreuzvalidierung die Leistung eines Modells schätzt, das auf einem Datensatz von 100 * (k-1) / k% der verfügbaren Daten und nicht auf 100% davon trainiert wurde. Wenn Sie also eine Kreuzvalidierung durchführen, um die Leistung zu schätzen, und dann ein Modell verwenden, das für alle Daten für den operativen Gebrauch geschult wurde, ist die Leistung etwas besser als die Kreuzvalidierungsschätzung vorschlägt.

Die ausschließliche Kreuzvalidierung ist in etwa unbefangen , da der Größenunterschied zwischen dem in jeder Falte verwendeten Trainingssatz und dem gesamten Datensatz nur ein einziges Muster ist. Dazu gibt es einen Artikel von Luntz und Brailovsky (in russischer Sprache).

Luntz, Aleksandr und Viktor Brailovsky. "Über die Schätzung der im statistischen Erkennungsverfahren erhaltenen Zeichen." Technicheskaya Kibernetica 3,6 (1969): 6-12.

siehe auch

Abschätzung der Fehlerraten bei der Diskriminanzanalyse Peter A. Lachenbruch und M. Ray Mickey Technometrics Vol. 3 No. 10, Iss. 1,1968

Obwohl eine ausschließliche Kreuzvalidierung in etwa unvoreingenommen ist, weist sie tendenziell eine hohe Varianz auf (daher würden Sie sehr unterschiedliche Schätzungen erhalten, wenn Sie die Schätzung mit unterschiedlichen anfänglichen Stichproben von Daten aus derselben Verteilung wiederholen würden). Da der Fehler des Schätzers eine Kombination aus Verzerrung und Varianz ist, hängt es von beiden Größen ab, ob eine ausgelassene Kreuzvalidierung besser ist als eine zehnfache Kreuzvalidierung.

Jetzt ist die Varianz beim Anpassen des Modells tendenziell höher, wenn es an einen kleinen Datensatz angepasst wird (da es empfindlicher auf Rausch- / Abtastartefakte in der jeweiligen verwendeten Trainingsstichprobe reagiert). Dies bedeutet, dass eine 10-fache Kreuzvalidierung wahrscheinlich eine hohe Varianz (sowie eine höhere Verzerrung) aufweist, wenn Sie nur über eine begrenzte Datenmenge verfügen, da die Größe des Trainingssatzes geringer ist als bei LOOCV. Daher kann die k-fache Kreuzvalidierung auch Varianzprobleme haben, jedoch aus einem anderen Grund. Aus diesem Grund ist LOOCV oft besser, wenn der Datensatz klein ist.

Der Hauptgrund für die Verwendung von LOOCV ist meiner Meinung nach, dass es für einige Modelle (wie lineare Regression, die meisten Kernel-Methoden, Klassifikatoren für den nächsten Nachbarn usw.) recheneffizient ist und ich es verwenden würde , wenn der Datensatz nicht sehr klein wäre 10-fache Kreuzvalidierung, wenn sie in mein Rechenbudget passt, oder noch besser, Bootstrap-Schätzung und Bagging.

— Dikran Beuteltier
quelle

+1 für die obskure russische Referenz von 1969! Haben Sie eine gute Referenz für LOOCV mit hoher Varianz? Dies wird in Hastie et al. Angegeben, aber ich bin nicht sicher, ob ich von dem Argument zu 100% überzeugt bin, und ich habe keine empirischen Demonstrationen (Simulationen) gesehen.

— Amöbe sagt Reinstate Monica

Ja, ich glaube nicht, dass ich damit einverstanden bin, da davon ausgegangen wird, dass das Modell unter den durch das Löschen der Teststichproben verursachten Störungen stabil ist. Dies ist wahrscheinlich nur dann der Fall, wenn Sie einen sehr großen Datensatz haben (d. h nur asymptotisch wahr, aber wenn Sie so viele Daten hätten, würde fast jedes vernünftige Leistungsbewertungsschema zu demselben Ergebnis führen.

— Dikran Beuteltier

+1 (sowohl der Beitrag als auch der letzte Kommentar - tolles Papier, aber nicht zu verblenden, gefolgt (wie jedes andere Papier)).

— usεr11852 sagt Reinstate Monic

@Dikran Dieses Thema (von LOOCV mit der größten Varianz) tauchte erneut in einer separaten und recht interessanten Frage auf: stats.stackexchange.com/questions/280665 , vielleicht möchten Sie einen Blick darauf werfen.

— Amöbe sagt Reinstate Monica

k

$k$

Meiner Meinung nach ist es besser, eine Kreuzvalidierung wegzulassen, wenn Sie nur wenige Trainingsdaten haben. In diesem Fall können Sie keine 10-fachen Vorhersagen zur Verwendung der restlichen Daten zum Trainieren des Modells treffen.

Wenn Sie andererseits eine große Menge an Trainingsdaten haben, ist eine 10-fache Kreuzvalidierung die bessere Wahl, da es zu viele Iterationen gibt, um eine Kreuzvalidierung auszulassen, und wenn Sie diese vielen Ergebnisse berücksichtigen, können Sie Ihre Hyperparameter optimieren keine so gute idee.

Laut ISL gibt es immer einen Bias-Varianz-Kompromiss zwischen dem Auslassen von Eins und der k-fachen Kreuzvalidierung. In LOOCV (einen Lebenslauf weglassen) erhalten Sie Schätzungen des Testfehlers mit geringerer Abweichung und höherer Varianz, da jeder Trainingssatz n-1 Beispiele enthält, was bedeutet, dass Sie fast den gesamten Trainingssatz in jeder Iteration verwenden. Dies führt auch zu einer höheren Varianz, da es eine große Überlappung zwischen Trainingssätzen gibt und daher die Testfehlerschätzungen stark korrelieren, was bedeutet, dass der Mittelwert der Testfehlerschätzung eine höhere Varianz aufweist.

Das Gegenteil ist bei k-fachem CV der Fall, da es relativ weniger Überlappungen zwischen den Trainingssätzen gibt, so dass die Testfehlerschätzungen weniger korreliert sind, wodurch der mittlere Testfehlerwert nicht so stark abweicht wie LOOCV.

— Subraveti Suraj
quelle