Statistiken und Big Data cross-validation

1

Wie funktioniert die ausschließliche Quervalidierung? Wie wähle ich das endgültige Modell aus verschiedenen Modellen aus?

Ich habe einige Daten und möchte aus diesen Daten ein Modell (z. B. ein lineares Regressionsmodell) erstellen. In einem nächsten Schritt möchte ich die Leave-One-Out Cross-Validation (LOOCV) auf das Modell anwenden, um zu sehen, wie gut es funktioniert. Wenn ich LOOCV richtig verstanden habe, erstelle ich für jede meiner Stichproben …

25 cross-validation

2

10-fache Kreuzvalidierung versus einmalige Kreuzvalidierung

Ich mache eine verschachtelte Kreuzvalidierung. Ich habe gelesen, dass eine einmalige Kreuzvalidierung voreingenommen sein kann (ich erinnere mich nicht, warum). Ist es besser, die 10-fache Kreuzvalidierung oder die einmalige Kreuzvalidierung zu verwenden, abgesehen von der längeren Laufzeit für die einmalige Kreuzvalidierung?

25 machine-learning cross-validation

3

Cross-Validierung oder Bootstrapping zur Bewertung der Klassifizierungsleistung?

Welche Stichprobenmethode eignet sich am besten, um die Leistung eines Klassifikators für einen bestimmten Datensatz zu bewerten und mit anderen Klassifikatoren zu vergleichen? Kreuzvalidierung scheint Standard zu sein, aber ich habe gelesen, dass Methoden wie .632-Bootstrap eine bessere Wahl sind. Als Follow-up: Hat die Auswahl der Leistungsmetrik Einfluss auf die …

24 machine-learning classification predictive-models cross-validation bootstrap

3

ROC-Kurve für diskrete Klassifikatoren wie SVM: Warum nennen wir es immer noch eine "Kurve"? Ist es nicht nur ein "Punkt"?

In der Diskussion: Wie man eine ROC-Kurve für die binäre Klassifikation erzeugt , war meiner Meinung nach die Verwirrung, dass ein "binärer Klassifikator" (ein Klassifikator, der zwei Klassen trennt) für Yang ein so genannter "diskreter Klassifikator" war (der erzeugt) diskrete Ausgänge (0/1 wie ein SVM) und keine kontinuierlichen Ausgänge wie …

24 cross-validation roc auc

1

Wer hat die k-fache Kreuzvalidierung erfunden?

Ich suche einen Verweis auf das Papier, in dem die k-fache Kreuzvalidierung eingeführt wurde (und nicht nur einen guten wissenschaftlichen Verweis für das Fach). Vielleicht ist es zu weit zurück in der Vergangenheit, um die allererste Veröffentlichung eindeutig zu identifizieren, so dass alle frühen Veröffentlichungen, in denen die Idee verwendet …

24 cross-validation references

1

Die Kreuzvalidierungsstatistik (CV) und die generalisierte Kreuzvalidierungsstatistik (GCV)

Ich habe möglicherweise widersprüchliche Definitionen für die Kreuzvalidierungsstatistik (CV) und die generalisierte Kreuzvalidierungsstatistik (GCV) gefunden, die mit einem linearen Modell (mit einem normalen homoskedastischen Fehlervektor ).& egr;Y=Xβ+εY=Xβ+εY = X\boldsymbol\beta + \boldsymbol\varepsilonεε\boldsymbol\varepsilon Einerseits definieren Golub, Heath & Wahba die GCV-Schätzung als (S. 216).λ^λ^\hat{\lambda} der durch gegebene Minimierer von wobei A \ …

23 cross-validation

3

Welche gängigen Prognosemodelle können als Sonderfälle von ARIMA-Modellen angesehen werden?

Heute morgen bin ich aufgewacht und habe mich gefragt (dies könnte daran liegen, dass ich letzte Nacht nicht viel geschlafen habe): Da die Kreuzvalidierung der Eckpfeiler einer ordnungsgemäßen Vorhersage von Zeitreihen zu sein scheint, welche Modelle sollte ich normalerweise verwenden? "Kreuzvalidierung gegen? Ich hatte ein paar (einfache), aber mir wurde …

23 time-series cross-validation arima

4

Warum verwenden Forscher die 10-fache Kreuzvalidierung, anstatt einen Validierungssatz zu testen?

Ich habe viele Forschungsarbeiten über Stimmungsklassifikation und verwandte Themen gelesen. Die meisten von ihnen verwenden eine 10-fache Kreuzvalidierung, um Klassifikatoren zu trainieren und zu testen. Das bedeutet, dass keine separaten Tests / Validierungen durchgeführt werden. Warum das? Was sind die Vor- und Nachteile dieses Ansatzes, insbesondere für Forscher?

23 classification cross-validation

2

Warum ist Lambda „innerhalb eines Standardfehlers vom Minimum“ ein empfohlener Wert für Lambda in einer elastischen Netto-Regression?

Ich verstehe, welche Rolle Lambda in einer elastischen Netzregression spielt. Und ich kann verstehen, warum man lambda.min auswählen würde, den Wert von lambda, der quervalidierte Fehler minimiert. Meine Frage ist, wo in der Statistikliteratur die Verwendung von Lambda.1se empfohlen wird, dh der Wert von Lambda, der den CV-Fehler plus einen …

23 regression cross-validation regularization glmnet elastic-net

3

AIC versus Kreuzvalidierung in Zeitreihen: der kleine Musterfall

Ich interessiere mich für die Modellauswahl in einer Zeitreiheneinstellung. Nehmen wir der Vollständigkeit halber an, ich möchte ein ARMA-Modell aus einem Pool von ARMA-Modellen mit unterschiedlichen Verzögerungsreihenfolgen auswählen. Die ultimative Absicht ist die Vorhersage . Die Modellauswahl kann über erfolgen Kreuzvalidierung, Verwendung von Informationskriterien (AIC, BIC), unter anderem Methoden. Rob …

22 time-series forecasting cross-validation model-selection aic

3

Modellstabilität bei großen , kleinen Problemen

Intro: Ich habe einen Datensatz mit einem klassischen "großen p, kleinen n-Problem". Die Anzahl der verfügbaren Stichproben n = 150, während die Anzahl der möglichen Prädiktoren p = 400 ist. Das Ergebnis ist eine kontinuierliche Variable. Ich möchte die "wichtigsten" Deskriptoren finden, dh diejenigen, die die besten Kandidaten für die …

22 regression cross-validation model-selection feature-selection elastic-net

2

Wie sollen Mixed-Effects-Modelle verglichen und / oder validiert werden?

Wie werden (lineare) Mischeffektmodelle normalerweise miteinander verglichen? Ich weiß, dass Likelihood-Ratio-Tests verwendet werden können, aber dies funktioniert nicht, wenn ein Modell nicht die richtige Teilmenge des anderen Modells ist. Ist die Schätzung der Modelle df immer einfach? Anzahl der Fixeffekte + Anzahl der geschätzten Varianzkomponenten? Ignorieren wir die Schätzungen für …

22 hypothesis-testing mixed-model cross-validation aic degrees-of-freedom

2

Bester Ansatz für die Modellauswahl Bayesian oder Kreuzvalidierung?

Wenn ich versuche, zwischen verschiedenen Modellen oder der Anzahl von Merkmalen zu wählen, für die eine Vorhersage erforderlich ist, kann ich mir zwei Ansätze vorstellen. Teilen Sie die Daten in Trainings- und Testsätze auf. Besser noch, verwenden Sie Bootstrapping oder k-fach Kreuzvalidierung. Trainieren Sie jedes Mal am Trainingssatz und berechnen …

22 bayesian model-selection cross-validation feature-selection

5

Wie teile ich einen Datensatz für die Vorhersage von Zeitreihen auf?

Ich habe historische Verkaufsdaten von einer Bäckerei (täglich, über 3 Jahre). Jetzt möchte ich ein Modell erstellen, um zukünftige Verkäufe vorherzusagen (unter Verwendung von Funktionen wie Wochentag, Wettervariablen usw.). Wie soll ich den Datensatz für die Anpassung und Auswertung der Modelle aufteilen? Muss es sich um einen chronologischen Zug / …

22 cross-validation partitioning

2

Auswahl des optimalen Alphas in der elastischen Netto-Logistik-Regression

Ich führe mithilfe des glmnetPakets in R eine elastisch-net logistische Regression für einen Datensatz im Gesundheitswesen durch, indem ich Lambda-Werte über ein Raster von von 0 bis 1 auswähle . Mein abgekürzter Code lautet wie folgt:αα\alpha alphalist <- seq(0,1,by=0.1) elasticnet <- lapply(alphalist, function(a){ cv.glmnet(x, y, alpha=a, family="binomial", lambda.min.ratio=.001) }) for …

22 machine-learning cross-validation glmnet elastic-net

Als «cross-validation» getaggte Fragen