Caret-Methoden zur erneuten Probenahme


20

Ich benutze die Bibliothek caretin R, um verschiedene Modellierungsverfahren zu testen.

Das trainControlObjekt erlaubt es, eine Neuabtastungsmethode anzugeben. Die Verfahren werden in der beschriebenen Dokumentation Abschnitt 2.3 und beinhalten: boot, boot632, cv, LOOCV, LGOCV, repeatedcvund oob. Obwohl einige davon leicht abzuleiten sind, sind nicht alle dieser Methoden klar definiert.

Welche Verfahren entsprechen diesen Resampling-Methoden?


Dokumentationslink ist defekt. Verwenden Sie dies stattdessen.
Vikas

Antworten:


20

Ok, hier ist mein Versuch:

  • boot - bootstrap
  • boot632 - 0.632 Bootstrap
  • cv - Kreuzvalidierung, wahrscheinlich bezieht sich dies auf eine K-fache Kreuzvalidierung .
  • LOOCV - eine einmalige Kreuzvalidierung, auch als Jacknife bekannt.
  • LGOCV - Leave-Group-Out-Kreuzvalidierung, Variante von LOOCV für hierarchische Daten.
  • repeatedcv - ist wahrscheinlich eine wiederholte zufällige Subsampling-Validierung , dh die Aufteilung in Trainings- und Testdaten erfolgt auf zufällige Weise.
  • oob - bezieht sich auf die von Breiman vorgeschlagene Out-of-Bag-Schätzung , die sich ferner auf die Bootstrap-Aggregation bezieht . (Die Datei im Link ist keine ps-Datei, sondern eine ps.Z-Datei. Benennen Sie sie um und versuchen Sie, sie zu öffnen.)

1
Ich glaube, dass LGOCV eine zufällige Aufteilung zwischen einem Trainingssatz und einem Validierungssatz ist, die n-mal wiederholt wird. Daher wird dieser Vorgang anstelle des normalen Falles, dass Daten zwischen Zug und Wartezeit aufgeteilt werden (Modell im Zug erstellen und Wartezeit validieren), mehrmals wiederholt.
B_Miner

3
Ich glaube auch, dass wiederholtes CV eine mehrfach durchgeführte k-fache Kreuzvalidierung ist.
B_Miner

Kaum zu glauben, dass dies nicht irgendwo dokumentiert ist.
Andrew

4

Die repeatedcv10-fache Kreuzvalidierung wird nach Angaben von Max Kuhn mit Sicherheit wiederholt. Das Standard-Resampling-Schema ist das Bootstrap.

Eine gute Datei, die Sie über Resampling-Methoden nachlesen können, ist Predictive Modeling mit R und dem Caret-Paket ( pdf ). Max präsentierte dies in "useR! 2013".

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.