Wiederholtes Zurückhalten von Teilmengen der Daten während der Modellanpassung, um die Modellleistung für die Teilmengen der zurückgehaltenen Daten zu quantifizieren.
Ich habe einige Daten und möchte aus diesen Daten ein Modell (z. B. ein lineares Regressionsmodell) erstellen. In einem nächsten Schritt möchte ich die Leave-One-Out Cross-Validation (LOOCV) auf das Modell anwenden, um zu sehen, wie gut es funktioniert. Wenn ich LOOCV richtig verstanden habe, erstelle ich für jede meiner Stichproben …
Ich mache eine verschachtelte Kreuzvalidierung. Ich habe gelesen, dass eine einmalige Kreuzvalidierung voreingenommen sein kann (ich erinnere mich nicht, warum). Ist es besser, die 10-fache Kreuzvalidierung oder die einmalige Kreuzvalidierung zu verwenden, abgesehen von der längeren Laufzeit für die einmalige Kreuzvalidierung?
Welche Stichprobenmethode eignet sich am besten, um die Leistung eines Klassifikators für einen bestimmten Datensatz zu bewerten und mit anderen Klassifikatoren zu vergleichen? Kreuzvalidierung scheint Standard zu sein, aber ich habe gelesen, dass Methoden wie .632-Bootstrap eine bessere Wahl sind. Als Follow-up: Hat die Auswahl der Leistungsmetrik Einfluss auf die …
In der Diskussion: Wie man eine ROC-Kurve für die binäre Klassifikation erzeugt , war meiner Meinung nach die Verwirrung, dass ein "binärer Klassifikator" (ein Klassifikator, der zwei Klassen trennt) für Yang ein so genannter "diskreter Klassifikator" war (der erzeugt) diskrete Ausgänge (0/1 wie ein SVM) und keine kontinuierlichen Ausgänge wie …
Ich suche einen Verweis auf das Papier, in dem die k-fache Kreuzvalidierung eingeführt wurde (und nicht nur einen guten wissenschaftlichen Verweis für das Fach). Vielleicht ist es zu weit zurück in der Vergangenheit, um die allererste Veröffentlichung eindeutig zu identifizieren, so dass alle frühen Veröffentlichungen, in denen die Idee verwendet …
Ich habe möglicherweise widersprüchliche Definitionen für die Kreuzvalidierungsstatistik (CV) und die generalisierte Kreuzvalidierungsstatistik (GCV) gefunden, die mit einem linearen Modell (mit einem normalen homoskedastischen Fehlervektor ).& egr;Y=Xβ+εY=Xβ+εY = X\boldsymbol\beta + \boldsymbol\varepsilonεε\boldsymbol\varepsilon Einerseits definieren Golub, Heath & Wahba die GCV-Schätzung als (S. 216).λ^λ^\hat{\lambda} der durch gegebene Minimierer von wobei A \ …
Heute morgen bin ich aufgewacht und habe mich gefragt (dies könnte daran liegen, dass ich letzte Nacht nicht viel geschlafen habe): Da die Kreuzvalidierung der Eckpfeiler einer ordnungsgemäßen Vorhersage von Zeitreihen zu sein scheint, welche Modelle sollte ich normalerweise verwenden? "Kreuzvalidierung gegen? Ich hatte ein paar (einfache), aber mir wurde …
Ich habe viele Forschungsarbeiten über Stimmungsklassifikation und verwandte Themen gelesen. Die meisten von ihnen verwenden eine 10-fache Kreuzvalidierung, um Klassifikatoren zu trainieren und zu testen. Das bedeutet, dass keine separaten Tests / Validierungen durchgeführt werden. Warum das? Was sind die Vor- und Nachteile dieses Ansatzes, insbesondere für Forscher?
Ich verstehe, welche Rolle Lambda in einer elastischen Netzregression spielt. Und ich kann verstehen, warum man lambda.min auswählen würde, den Wert von lambda, der quervalidierte Fehler minimiert. Meine Frage ist, wo in der Statistikliteratur die Verwendung von Lambda.1se empfohlen wird, dh der Wert von Lambda, der den CV-Fehler plus einen …
Ich interessiere mich für die Modellauswahl in einer Zeitreiheneinstellung. Nehmen wir der Vollständigkeit halber an, ich möchte ein ARMA-Modell aus einem Pool von ARMA-Modellen mit unterschiedlichen Verzögerungsreihenfolgen auswählen. Die ultimative Absicht ist die Vorhersage . Die Modellauswahl kann über erfolgen Kreuzvalidierung, Verwendung von Informationskriterien (AIC, BIC), unter anderem Methoden. Rob …
Intro: Ich habe einen Datensatz mit einem klassischen "großen p, kleinen n-Problem". Die Anzahl der verfügbaren Stichproben n = 150, während die Anzahl der möglichen Prädiktoren p = 400 ist. Das Ergebnis ist eine kontinuierliche Variable. Ich möchte die "wichtigsten" Deskriptoren finden, dh diejenigen, die die besten Kandidaten für die …
Wie werden (lineare) Mischeffektmodelle normalerweise miteinander verglichen? Ich weiß, dass Likelihood-Ratio-Tests verwendet werden können, aber dies funktioniert nicht, wenn ein Modell nicht die richtige Teilmenge des anderen Modells ist. Ist die Schätzung der Modelle df immer einfach? Anzahl der Fixeffekte + Anzahl der geschätzten Varianzkomponenten? Ignorieren wir die Schätzungen für …
Wenn ich versuche, zwischen verschiedenen Modellen oder der Anzahl von Merkmalen zu wählen, für die eine Vorhersage erforderlich ist, kann ich mir zwei Ansätze vorstellen. Teilen Sie die Daten in Trainings- und Testsätze auf. Besser noch, verwenden Sie Bootstrapping oder k-fach Kreuzvalidierung. Trainieren Sie jedes Mal am Trainingssatz und berechnen …
Ich habe historische Verkaufsdaten von einer Bäckerei (täglich, über 3 Jahre). Jetzt möchte ich ein Modell erstellen, um zukünftige Verkäufe vorherzusagen (unter Verwendung von Funktionen wie Wochentag, Wettervariablen usw.). Wie soll ich den Datensatz für die Anpassung und Auswertung der Modelle aufteilen? Muss es sich um einen chronologischen Zug / …
Ich führe mithilfe des glmnetPakets in R eine elastisch-net logistische Regression für einen Datensatz im Gesundheitswesen durch, indem ich Lambda-Werte über ein Raster von von 0 bis 1 auswähle . Mein abgekürzter Code lautet wie folgt:αα\alpha alphalist <- seq(0,1,by=0.1) elasticnet <- lapply(alphalist, function(a){ cv.glmnet(x, y, alpha=a, family="binomial", lambda.min.ratio=.001) }) for …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.