Statistiken und Big Data cross-validation

1

Frage zum Subtrahieren des Mittelwerts im Zug / gültig / Testsatz

Ich mache eine Datenvorverarbeitung und werde danach ein Convonets auf meinen Daten erstellen. Meine Frage lautet: Angenommen, ich habe einen Gesamtdatensatz mit 100 Bildern. Ich habe den Mittelwert für jedes der 100 Bilder berechnet und ihn dann von jedem der Bilder subtrahiert, dann in Zug- und Validierungssatz aufgeteilt und das …

11 machine-learning cross-validation data-preprocessing

1

Anzahl der Hauptkomponenten bei der Vorverarbeitung mit PCA im Caret-Paket in R.

Ich verwende das caretPaket in Rfür das Training von binären SVM-Klassifikatoren. Zur Reduzierung von Funktionen verarbeite ich mit PCA die integrierte Funktion, preProc=c("pca")wenn ich anrufe train(). Hier sind meine Fragen: Wie wählt Caret Hauptkomponenten aus? Gibt es eine feste Anzahl von Hauptkomponenten, die ausgewählt werden? Werden Hauptkomponenten durch einen gewissen …

11 r machine-learning pca cross-validation caret

2

Wie verwende ich XGboost.cv mit der Optimierung von Hyperparametern?

Ich möchte die Hyperparameter von XGboost mithilfe der Kreuzvalidierung optimieren. Es ist jedoch nicht klar, wie man das Modell erhält xgb.cv. Zum Beispiel rufe ich objective(params)von an fmin. Dann wird das Modell montiert dtrainund validiert dvalid. Was ist, wenn ich KFold Crossvalidation verwenden möchte, anstatt zu trainieren dtrain? from hyperopt …

11 cross-validation python boosting hyperparameter gradient

1

Ist es "fair", einen Samen in eine zufällige Waldregression zu setzen, um die höchste Genauigkeit zu erzielen?

Ich habe eine zufällige Waldregression, die mit skl erstellt wurde, und ich stelle fest, dass ich unterschiedliche Ergebnisse erhalte, wenn ich den zufälligen Startwert auf unterschiedliche Werte setze. Wenn ich LOOCV verwende, um festzustellen, welches Seed am besten funktioniert, ist dies eine gültige Methode?

10 cross-validation random-forest

1

Wann sollte die Kreuzvalidierung nicht verwendet werden?

Während ich die Website durchlese, schlagen die meisten Antworten vor, dass eine Kreuzvalidierung in Algorithmen für maschinelles Lernen durchgeführt werden sollte. Als ich jedoch das Buch "Maschinelles Lernen verstehen" las, sah ich, dass es eine Übung gibt, bei der es manchmal besser ist, keine Kreuzvalidierung zu verwenden. Ich bin wirklich …

10 machine-learning self-study cross-validation

1

Zufällige Waldregression zur Vorhersage von Zeitreihen

Ich versuche, mithilfe der RF-Regression Vorhersagen über die Leistung einer Papierfabrik zu treffen. Ich habe minutenweise Daten für die Eingaben (Rate und Menge des eingedrungenen Holzzellstoffs usw.) sowie für die Leistung der Maschine (produziertes Papier, von der Maschine aufgenommene Leistung) und möchte Vorhersagen für 10 Minuten treffen voraus auf die …

10 time-series forecasting cross-validation random-forest autoregressive

1

Wie führt man eine Kreuzvalidierung mit cv.glmnet durch (LASSO-Regression in R)?

Ich frage mich, wie ich ein LASSO-Modell mit glmnet in R richtig trainieren und testen soll. Insbesondere frage ich mich, wie ich dies tun soll, wenn das Fehlen eines externen Testdatensatzes die Kreuzvalidierung (oder einen ähnlichen Ansatz) zum Testen meines LASSO-Modells erfordert . Lassen Sie mich mein Szenario aufschlüsseln: Ich …

10 r cross-validation glmnet lasso

3

Warum unterschätzt die CV-Schätzung des Testfehlers den tatsächlichen Testfehler?

Nach meinem Verständnis unterschätzt die k-fache Kreuzvalidierungsschätzung des Testfehlers normalerweise den tatsächlichen Testfehler. Ich bin verwirrt, warum dies der Fall ist. Ich verstehe, warum der Trainingsfehler normalerweise niedriger ist als der Testfehler - weil Sie das Modell mit denselben Daten trainieren, auf denen Sie den Fehler schätzen! Bei der Kreuzvalidierung …

10 cross-validation bias

1

Verhindern, dass Pareto Smoothed Important Sampling (PSIS-LOO) fehlschlägt

Ich habe vor kurzem damit begonnen, die pareto-geglättete Stichprobenauswahl (PSIS-LOO) zu verwenden, die in den folgenden Abhandlungen beschrieben wird: Vehtari, A. & Gelman, A. (2015). Pareto glättete wichtige Stichproben. arXiv Preprint ( Link ). A. Vehtari, A. Gelman & J. Gabry (2016). Praktische Bayes'sche Modellbewertung mit einmaliger Kreuzvalidierung und WAIC. …

10 machine-learning cross-validation mcmc pareto-distribution importance-sampling

1

Welche Methoden gibt es zum Optimieren der SVM-Hyperparameter des Graphkerns?

Ich habe einige Daten, die in einem Graphen . Die Eckpunkte gehören zu einer von zwei Klassen , und ich bin daran interessiert, eine SVM zu trainieren, um zwischen den beiden Klassen zu unterscheiden. Ein geeigneter Kern hierfür ist der Diffusionskern , wobei ist die Laplace von und ist ein …

10 svm cross-validation kernel-trick graph-theory

1

Erfordert die Modellierung mit zufälligen Wäldern eine Kreuzvalidierung?

Soweit ich gesehen habe, neigen die Meinungen dazu dazu. Best Practice würde sicherlich die Verwendung einer Kreuzvalidierung vorschreiben (insbesondere beim Vergleich von RFs mit anderen Algorithmen im selben Datensatz). Andererseits gibt die ursprüngliche Quelle an, dass die Tatsache, dass der OOB-Fehler während des Modelltrainings berechnet wird, ein ausreichender Indikator für …

10 cross-validation random-forest overfitting out-of-sample

2

Wie wähle ich die Trainings-, Kreuzvalidierungs- und Testsatzgrößen für kleine Daten mit Stichprobengröße aus?

Angenommen, ich habe eine kleine Stichprobengröße, z. B. N = 100, und zwei Klassen. Wie soll ich die Trainings-, Kreuzvalidierungs- und Testsatzgrößen für maschinelles Lernen auswählen? Ich würde intuitiv auswählen Trainingsset Größe als 50 Kreuzvalidierungssatz Größe 25 und Testgröße als 25. Aber wahrscheinlich macht das mehr oder weniger Sinn. Wie …

10 machine-learning sampling svm cross-validation sample-size

1

Ist die Hold-out-Validierung eine bessere Annäherung an das Abrufen neuer Daten als der k-fache Lebenslauf?

Ich habe eine Antwort überdacht , die ich vor ein paar Wochen auf eine Frage gegeben habe Die Hold-out-Kreuzvalidierung erzeugt einen einzelnen Testsatz, der wiederholt zur Demonstration verwendet werden kann. Wir scheinen uns alle einig zu sein, dass dies in vielerlei Hinsicht ein negatives Merkmal ist, da sich herausstellen könnte, …

10 cross-validation

2

Überlegenheit von LASSO gegenüber Vorwärtsauswahl / Rückwärtseliminierung in Bezug auf den Kreuzvalidierungs-Vorhersagefehler des Modells

Ich habe drei reduzierte Modelle von einem Original-Vollmodell mit erhalten Vorauswahl Rückwärtseliminierung L1 Bestrafungstechnik (LASSO) Für die Modelle, die unter Verwendung von Vorwärtsauswahl / Rückwärtseliminierung erhalten wurden, erhielt ich die kreuzvalidierte Schätzung des Vorhersagefehlers unter Verwendung des CVlmin DAAGverfügbaren Pakets in R. Für das über LASSO ausgewählte Modell habe ich …

10 cross-validation model-selection lasso stepwise-regression

3

Sollte die Funktionsauswahl nur für Trainingsdaten (oder alle Daten) durchgeführt werden?

Sollte die Merkmalsauswahl nur für Trainingsdaten (oder alle Daten) durchgeführt werden? Ich habe einige Diskussionen und Artikel wie Guyon (2003) und Singhi und Liu (2006) durchgearbeitet, bin mir aber immer noch nicht sicher, ob ich die richtige Antwort finden soll. Mein Versuchsaufbau ist wie folgt: Datensatz: 50 gesunde Kontrollpersonen und …

10 dataset cross-validation experiment-design feature-selection

Als «cross-validation» getaggte Fragen