Die K-fach Kreuzvalidierung (CV) zerlegt Ihre Daten nach dem Zufallsprinzip in K Partitionen, und Sie halten im Gegenzug eines dieser K Teile als Testfall fest und fassen die anderen K-1 Teile als Ihre Trainingsdaten zusammen. Leave One Out (LOO) ist der Spezialfall, in dem Sie Ihre N Datenelemente nehmen und einen N-fachen Lebenslauf machen. In gewisser Weise ist Hold Out ein weiterer Sonderfall, bei dem Sie nur eine Ihrer K-Falten als Test auswählen und nicht durch alle K-Falten drehen.
Soweit ich weiß, ist der 10-fache Lebenslauf so ziemlich das A und O, da er Ihre Daten effizient nutzt und auch dazu beiträgt, unglückliche Partitionsentscheidungen zu vermeiden. Hold Out nutzt Ihre Daten nicht effizient und LOO ist nicht so robust (oder so ähnlich), aber das 10-fache ist genau richtig.
Wenn Sie wissen, dass Ihre Daten mehr als eine Kategorie enthalten und eine oder mehrere Kategorien viel kleiner als die anderen sind, enthalten einige Ihrer K zufälligen Partitionen möglicherweise überhaupt keine der kleinen Kategorien, was schlecht wäre. Um sicherzustellen, dass jede Partition einigermaßen repräsentativ ist, verwenden Sie die Schichtung: Teilen Sie Ihre Daten in Kategorien auf und erstellen Sie dann zufällige Partitionen, indem Sie zufällig und proportional aus jeder Kategorie auswählen.
Alle diese Variationen von K-Fold CV wählen Sie ersatzlos aus Ihren Daten. Der Bootstrap wählt Daten mit Ersetzung aus, sodass dasselbe Datum mehrmals eingeschlossen werden kann und einige Daten möglicherweise überhaupt nicht enthalten sind. (Jede "Partition" hat auch N Elemente, im Gegensatz zu K-fach, in denen jede Partition N / K Elemente hat.)
(Ich muss zugeben, dass ich nicht genau weiß, wie der Bootstrap im Lebenslauf verwendet wird. Das Prinzip des Testens und des Lebenslaufs besteht darin, sicherzustellen, dass Sie nicht auf Daten testen, auf die Sie trainiert haben, damit Sie erhalten eine realistischere Vorstellung davon, wie Ihre Technik + Koeffizienten in der realen Welt funktionieren könnten.)
BEARBEITEN: "Hold-Out ist nicht effizient" wurde durch "Hold-Out nutzt Ihre Daten nicht effizient" ersetzt, um dies zu verdeutlichen.