Als «cross-validation» getaggte Fragen

Wiederholtes Zurückhalten von Teilmengen der Daten während der Modellanpassung, um die Modellleistung für die Teilmengen der zurückgehaltenen Daten zu quantifizieren.

2
Verwendung von verschachtelter Kreuzvalidierung
Die Seite von Scikit Learn zur Modellauswahl erwähnt die Verwendung von verschachtelter Kreuzvalidierung: >>> clf = GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas), ... n_jobs=-1) >>> cross_validation.cross_val_score(clf, X_digits, y_digits) Zwei Kreuzvalidierungsschleifen werden parallel ausgeführt: eine vom GridSearchCV-Schätzer zum Festlegen von Gamma und eine vom cross_val_score zum Messen der Vorhersageleistung des Schätzers. Die resultierenden Scores sind …

2
Wie passt die k-fache Kreuzvalidierung in den Kontext von Trainings- / Validierungs- / Testsätzen?
Meine Hauptfrage betrifft den Versuch zu verstehen, wie die k-fache Kreuzvalidierung in den Kontext von Trainings- / Validierungs- / Testsätzen passt (wenn sie überhaupt in einen solchen Kontext passt). Normalerweise wird davon gesprochen, die Daten in einen Trainings-, Validierungs- und Testsatz aufzuteilen - beispielsweise in einem Verhältnis von 60/20/20 pro …

5
Philosophische Frage zur logistischen Regression: Warum wird der optimale Schwellenwert nicht trainiert?
Normalerweise passen wir in der logistischen Regression ein Modell an und erhalten einige Vorhersagen zum Trainingssatz. Anschließend validieren wir diese Trainingsvorhersagen (so ähnlich wie hier ) und bestimmen den optimalen Schwellenwert auf der Grundlage der ROC-Kurve. Warum integrieren wir die Quervalidierung des Schwellenwerts nicht in das tatsächliche Modell und trainieren …

1
Bewerten Sie Random Forest: OOB vs CV
Wenn wir die Qualität einer zufälligen Gesamtstruktur beurteilen, zum Beispiel mithilfe der AUC, ist es angemessener, diese Mengen anhand der Out-of-Bag-Proben oder anhand des Hold-out-Satzes der Kreuzvalidierung zu berechnen. Ich habe gehört, dass die Berechnung über die OOB-Samples eine pessimistischere Einschätzung ergibt, aber ich verstehe nicht, warum.

4
Inwiefern unterscheidet sich die Quervalidierung vom Daten-Snooping?
Ich habe gerade "Eine Einführung in das statistische Lernen" abgeschlossen . Ich habe mich gefragt, ob sich die Verwendung der Kreuzvalidierung zum Ermitteln der besten Optimierungsparameter für verschiedene Techniken des maschinellen Lernens von Datenschnüffeln unterscheidet. Wir überprüfen wiederholt, welcher Wert des Abstimmungsparameters zu einem besten Vorhersageergebnis im Testsatz führt. Was …

1
Berechnen Sie mit der k-fachen Kreuzvalidierung den Durchschnitt aller Modelle, um das endgültige Modell zu erstellen?
Wenn Sie eine Kreuzvalidierung mit k-fach durchführen, erhalten Sie die Genauigkeitsmetrik, indem Sie auf alle Falten mit Ausnahme einer auf diese eine Falte zeigen, Vorhersagen treffen und diesen Vorgang mal wiederholen . Sie können dann Genauigkeitsmetriken für alle Ihre Instanzen ausführen (Genauigkeit, Rückruf,% richtig klassifiziert), die gleich sein sollten, als …

2
Interpretation und Validierung eines Cox-Regressionsmodells für proportionale Gefahren unter Verwendung von R in Klartext
Kann mir jemand mein Cox-Modell im Klartext erklären? Ich habe das folgende Cox-Regressionsmodell mithilfe der Funktion an alle meine Daten angepasst cph. Meine Daten werden in einem Objekt namens gespeichert Data. Die Variablen w, xund ysind stetig; zist ein Faktor von zwei Ebenen. Die Zeit wird in Monaten gemessen. Bei …

2
Grundlegendes zum Bootstrapping für die Validierung und Modellauswahl
Ich denke, ich verstehe, wie die Grundlagen des Bootstrapping funktionieren, bin mir aber nicht sicher, wie ich das Bootstrapping zur Modellauswahl oder zur Vermeidung von Überanpassungen einsetzen kann. Würden Sie beispielsweise für die Modellauswahl nur das Modell auswählen, das den geringsten Fehler (möglicherweise die geringste Varianz?) In den Bootstrap-Beispielen ergibt? …


2
Wie kann eine Kreuzvalidierung für PCA durchgeführt werden, um die Anzahl der Hauptkomponenten zu bestimmen?
Ich versuche, meine eigene Funktion für die Hauptkomponentenanalyse, PCA, zu schreiben (natürlich ist bereits viel geschrieben, aber ich bin nur daran interessiert, Dinge selbst zu implementieren). Das Hauptproblem, auf das ich gestoßen bin, ist der Kreuzvalidierungsschritt und die Berechnung der vorhergesagten Quadratsumme (PRESS). Es spielt keine Rolle, welche Kreuzvalidierung ich …

1
Gibt es eine zeitgemäße Verwendung von Jackknifing?
Die Frage: Bootstrapping ist Jackknifing überlegen ; Ich frage mich jedoch, ob es Fälle gibt, in denen das Jackknifing die einzige oder zumindest eine praktikable Option zur Charakterisierung der Unsicherheit aus Parameterschätzungen ist. Auch in praktischen Situationen, wie voreingenommen / ungenau ist Jackknifing im Vergleich zu Bootstrapping, und können Jackknife-Ergebnisse …

4
Können Sie verschiedene Clustering-Methoden in einem Datensatz ohne fundamentale Wahrheit durch Kreuzvalidierung vergleichen?
Derzeit versuche ich, einen Textdokumentdatensatz zu analysieren, der keine fundamentale Wahrheit enthält. Mir wurde gesagt, dass Sie die k-fache Kreuzvalidierung verwenden können, um verschiedene Clustering-Methoden zu vergleichen. Die Beispiele, die ich in der Vergangenheit gesehen habe, verwenden jedoch eine Grundwahrheit. Gibt es eine Möglichkeit, k-fach Mittel für diesen Datensatz zu …

1
Unterschiede zwischen PROC Mixed und lme / lmer in R - Freiheitsgraden
Hinweis: Diese Frage ist ein Repost, da meine vorherige Frage aus rechtlichen Gründen gelöscht werden musste. Beim Vergleich von PROC MIXED von SAS mit der Funktion lmeaus dem nlmePaket in R bin ich auf einige verwirrende Unterschiede gestoßen. Insbesondere unterscheiden sich die Freiheitsgrade in den verschiedenen Tests zwischen PROC MIXEDund …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 



Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.