Als «cross-validation» getaggte Fragen

Wiederholtes Zurückhalten von Teilmengen der Daten während der Modellanpassung, um die Modellleistung für die Teilmengen der zurückgehaltenen Daten zu quantifizieren.


1
Anzahl der Hauptkomponenten bei der Vorverarbeitung mit PCA im Caret-Paket in R.
Ich verwende das caretPaket in Rfür das Training von binären SVM-Klassifikatoren. Zur Reduzierung von Funktionen verarbeite ich mit PCA die integrierte Funktion, preProc=c("pca")wenn ich anrufe train(). Hier sind meine Fragen: Wie wählt Caret Hauptkomponenten aus? Gibt es eine feste Anzahl von Hauptkomponenten, die ausgewählt werden? Werden Hauptkomponenten durch einen gewissen …

2
Wie verwende ich XGboost.cv mit der Optimierung von Hyperparametern?
Ich möchte die Hyperparameter von XGboost mithilfe der Kreuzvalidierung optimieren. Es ist jedoch nicht klar, wie man das Modell erhält xgb.cv. Zum Beispiel rufe ich objective(params)von an fmin. Dann wird das Modell montiert dtrainund validiert dvalid. Was ist, wenn ich KFold Crossvalidation verwenden möchte, anstatt zu trainieren dtrain? from hyperopt …



1
Zufällige Waldregression zur Vorhersage von Zeitreihen
Ich versuche, mithilfe der RF-Regression Vorhersagen über die Leistung einer Papierfabrik zu treffen. Ich habe minutenweise Daten für die Eingaben (Rate und Menge des eingedrungenen Holzzellstoffs usw.) sowie für die Leistung der Maschine (produziertes Papier, von der Maschine aufgenommene Leistung) und möchte Vorhersagen für 10 Minuten treffen voraus auf die …


3
Warum unterschätzt die CV-Schätzung des Testfehlers den tatsächlichen Testfehler?
Nach meinem Verständnis unterschätzt die k-fache Kreuzvalidierungsschätzung des Testfehlers normalerweise den tatsächlichen Testfehler. Ich bin verwirrt, warum dies der Fall ist. Ich verstehe, warum der Trainingsfehler normalerweise niedriger ist als der Testfehler - weil Sie das Modell mit denselben Daten trainieren, auf denen Sie den Fehler schätzen! Bei der Kreuzvalidierung …

1
Verhindern, dass Pareto Smoothed Important Sampling (PSIS-LOO) fehlschlägt
Ich habe vor kurzem damit begonnen, die pareto-geglättete Stichprobenauswahl (PSIS-LOO) zu verwenden, die in den folgenden Abhandlungen beschrieben wird: Vehtari, A. & Gelman, A. (2015). Pareto glättete wichtige Stichproben. arXiv Preprint ( Link ). A. Vehtari, A. Gelman & J. Gabry (2016). Praktische Bayes'sche Modellbewertung mit einmaliger Kreuzvalidierung und WAIC. …


1
Erfordert die Modellierung mit zufälligen Wäldern eine Kreuzvalidierung?
Soweit ich gesehen habe, neigen die Meinungen dazu dazu. Best Practice würde sicherlich die Verwendung einer Kreuzvalidierung vorschreiben (insbesondere beim Vergleich von RFs mit anderen Algorithmen im selben Datensatz). Andererseits gibt die ursprüngliche Quelle an, dass die Tatsache, dass der OOB-Fehler während des Modelltrainings berechnet wird, ein ausreichender Indikator für …

2
Wie wähle ich die Trainings-, Kreuzvalidierungs- und Testsatzgrößen für kleine Daten mit Stichprobengröße aus?
Angenommen, ich habe eine kleine Stichprobengröße, z. B. N = 100, und zwei Klassen. Wie soll ich die Trainings-, Kreuzvalidierungs- und Testsatzgrößen für maschinelles Lernen auswählen? Ich würde intuitiv auswählen Trainingsset Größe als 50 Kreuzvalidierungssatz Größe 25 und Testgröße als 25. Aber wahrscheinlich macht das mehr oder weniger Sinn. Wie …


2
Überlegenheit von LASSO gegenüber Vorwärtsauswahl / Rückwärtseliminierung in Bezug auf den Kreuzvalidierungs-Vorhersagefehler des Modells
Ich habe drei reduzierte Modelle von einem Original-Vollmodell mit erhalten Vorauswahl Rückwärtseliminierung L1 Bestrafungstechnik (LASSO) Für die Modelle, die unter Verwendung von Vorwärtsauswahl / Rückwärtseliminierung erhalten wurden, erhielt ich die kreuzvalidierte Schätzung des Vorhersagefehlers unter Verwendung des CVlmin DAAGverfügbaren Pakets in R. Für das über LASSO ausgewählte Modell habe ich …

3
Sollte die Funktionsauswahl nur für Trainingsdaten (oder alle Daten) durchgeführt werden?
Sollte die Merkmalsauswahl nur für Trainingsdaten (oder alle Daten) durchgeführt werden? Ich habe einige Diskussionen und Artikel wie Guyon (2003) und Singhi und Liu (2006) durchgearbeitet, bin mir aber immer noch nicht sicher, ob ich die richtige Antwort finden soll. Mein Versuchsaufbau ist wie folgt: Datensatz: 50 gesunde Kontrollpersonen und …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.