Wiederholtes Zurückhalten von Teilmengen der Daten während der Modellanpassung, um die Modellleistung für die Teilmengen der zurückgehaltenen Daten zu quantifizieren.
Diese Frage mag zu offen sein, um eine endgültige Antwort zu erhalten, aber hoffentlich nicht. Algorithmen für maschinelles Lernen, wie SVM, GBM, Random Forest usw., haben im Allgemeinen einige freie Parameter, die über eine Faustregel hinaus auf jeden Datensatz abgestimmt werden müssen. Dies wird im Allgemeinen mit einer Art Neuabtastungstechnik …
Kürzlich bin ich auf ein Dokument gestoßen, das die Verwendung eines k-NN- Klassifikators für einen bestimmten Datensatz vorschlägt . Die Autoren verwendeten alle verfügbaren Datenproben, um eine k-fache Kreuzvalidierung für verschiedene k- Werte durchzuführen und Kreuzvalidierungsergebnisse der besten Hyperparameterkonfiguration zu melden. Meines Wissens ist dieses Ergebnis verzerrt, und sie sollten …
Ich überprüfe ein Modell, das versucht, eine Zählung vorherzusagen. Wenn dies ein Problem mit der binären Klassifizierung wäre, würde ich die Out-of-Fold-AUC berechnen, und wenn dies ein Regressionsproblem wäre, würde ich den Out-of-Fold-RMSE oder MAE berechnen. Welche Fehlermetriken kann ich für ein Poisson-Modell verwenden, um die "Genauigkeit" der Vorhersagen außerhalb …
Ich versuche verschiedene Kreuzvalidierungsmethoden zu erlernen, hauptsächlich mit der Absicht, sie auf überwachte multivariate Analysetechniken anzuwenden. Zwei, auf die ich gestoßen bin, sind K-Fold- und Monte-Carlo-Kreuzvalidierungstechniken. Ich habe gelesen, dass K-Fold eine Variation von Monte Carlo ist, aber ich bin mir nicht sicher, was genau die Definition von Monte Carlo …
Mir wurde gesagt, dass es von Vorteil ist, eine geschichtete Kreuzvalidierung zu verwenden, insbesondere wenn die Antwortklassen nicht ausgeglichen sind. Wenn ein Zweck der Kreuzvalidierung darin besteht, die Zufälligkeit unserer ursprünglichen Trainingsdatenstichprobe zu berücksichtigen, würde es sicher dagegen wirken, wenn Sie für jede Falte die gleiche Klassenverteilung festlegen, es sei …
Ich bin gerade auf diese Arbeit gestoßen , in der beschrieben wird, wie die Wiederholbarkeit (auch bekannt als Zuverlässigkeit, auch bekannt als Intraclass-Korrelation) einer Messung über Mixed-Effects-Modellierung berechnet wird. Der R-Code wäre: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = …
Ich habe eine Frage zum Cross-Validation-Prozess. Ich bin mitten in einem Kurs des Maschinellen Lernens auf der Cursera. Eines der Themen ist die Kreuzvalidierung. Ich fand es etwas schwierig zu folgen. Ich weiß, warum wir einen Lebenslauf benötigen, weil wir möchten, dass unsere Modelle auch für zukünftige (unbekannte) Daten geeignet …
Wenn ich GAM verwende, erhalte ich einen DF-Rest von (letzte Zeile im Code). Was bedeutet das? Über das GAM-Beispiel hinausgehend: Kann die Anzahl der Freiheitsgrade im Allgemeinen eine nicht ganzzahlige Zahl sein?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median …
In der Textklassifikation habe ich ein Trainingsset mit ca. 800 Samples und ein Testset mit ca. 150 Samples. Das Test-Set wurde noch nie verwendet und wartet darauf, bis zum Ende verwendet zu werden. Ich verwende das gesamte 800-Muster-Trainingsset mit 10-facher Kreuzvalidierung, während ich Klassifikatoren und Funktionen abstimme und optimiere. Dies …
Insbesondere in der Verarbeitung natürlicher Sprachen ist bekannt, dass maschinelles Lernen in zwei Schritten ablaufen sollte, einem Trainingsschritt und einem Bewertungsschritt, und sie sollten unterschiedliche Daten verwenden. Warum ist das? Intuitiv hilft dieser Prozess, eine Überanpassung der Daten zu vermeiden, aber ich sehe keinen (informationstheoretischen) Grund, warum dies der Fall …
Die K-fache Kreuzvalidierung kann verwendet werden, um die Verallgemeinerungsfähigkeit eines gegebenen Klassifikators abzuschätzen. Kann (oder sollte) ich aus allen Validierungsläufen auch eine gepoolte Varianz berechnen, um eine bessere Schätzung der Varianz zu erhalten? Wenn nein, warum? Ich habe Papiere gefunden, die die gepoolte Standardabweichung über Kreuzvalidierungsläufe verwenden . Ich habe …
In einer Frage an anderer Stelle auf dieser Website wurde in mehreren Antworten darauf hingewiesen, dass die AIC der LOO-Kreuzvalidierung und die BIC der K-fachen Kreuzvalidierung entspricht. Gibt es eine Möglichkeit, dies in R empirisch zu demonstrieren, sodass die mit LOO und K-fach verbundenen Techniken klargestellt werden und den AIC- …
Mein Verständnis ist, dass wir mit Kreuzvalidierung und Modellauswahl versuchen, zwei Dinge anzusprechen: P1 . Schätzen Sie den zu erwartenden Bevölkerungsverlust beim Training mit unserer Stichprobe P2 . Messen Sie und berichten Sie unsere Unsicherheit dieser Schätzung (Varianz, Konfidenzintervalle, Verzerrung, etc.) Es scheint üblich zu sein, wiederholte Kreuzvalidierungen durchzuführen, da …
In einigen Vorlesungen und Tutorials, die ich gesehen habe, wird vorgeschlagen, Ihre Daten in drei Teile aufzuteilen: Schulung, Validierung und Test. Es ist jedoch nicht klar, wie der Testdatensatz verwendet werden soll und wie dieser Ansatz besser ist als eine Kreuzvalidierung über den gesamten Datensatz. Nehmen wir an, wir haben …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.