Als «cross-validation» getaggte Fragen

Wiederholtes Zurückhalten von Teilmengen der Daten während der Modellanpassung, um die Modellleistung für die Teilmengen der zurückgehaltenen Daten zu quantifizieren.

2
Kann Regularisierung hilfreich sein, wenn wir nur an der Modellierung und nicht an der Vorhersage interessiert sind?
Kann Regularisierung hilfreich sein, wenn wir nur die Modellparameter schätzen (und interpretieren) möchten, nicht aber Prognosen oder Vorhersagen? Ich sehe, wie nützlich Regularisierung / Kreuzvalidierung ist, wenn Sie gute Prognosen für neue Daten erstellen möchten. Aber was ist, wenn Sie traditionelle Wirtschaftswissenschaften betreiben und sich nur für die Schätzung von …



6
Ist die Optimierung von Hyperparametern für eine Stichprobe eines Datensatzes eine schlechte Idee?
Ich habe einen Datensatz mit 140000 Beispielen und 30 Funktionen, für die ich mehrere Klassifikatoren für eine binäre Klassifizierung trainiere (SVM, Logistic Regression, Random Forest usw.). In vielen Fällen ist die Optimierung von Hyperparametern für den gesamten Datensatz mithilfe der Raster- oder Zufallssuche zeitlich zu kostspielig. Ich begann mit der …



1
Nachweis der LOOCV-Formel
Aus einer Einführung in das statistische Lernen von James et al. Geht hervor, dass die LOOCV-Schätzung (Leave-One-Out-Cross-Validation) durch wobei .CV(n)=1n∑i=1nMSEiCV(n)=1n∑i=1nMSEi\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\text{MSE}_iMSEi=(yi−y^i)2MSEi=(yi−y^i)2\text{MSE}_i = (y_i-\hat{y}_i)^2 Ohne Beweis besagt Gleichung (5.2), dass für eine Regression der kleinsten Quadrate oder des Polynoms (ob dies für die Regression nur einer Variablen gilt, ist mir …


5
Variabilität der cv.glmnet-Ergebnisse
Ich benutze cv.glmnet, um Prädiktoren zu finden. Das Setup, das ich verwende, ist wie folgt: lassoResults<-cv.glmnet(x=countDiffs,y=responseDiffs,alpha=1,nfolds=cvfold) bestlambda<-lassoResults$lambda.min results<-predict(lassoResults,s=bestlambda,type="coefficients") choicePred<-rownames(results)[which(results !=0)] Um sicherzustellen, dass die Ergebnisse reproduzierbar sind, habe ich set.seed(1). Die Ergebnisse sind sehr unterschiedlich. Ich habe genau den gleichen Code 100 ausgeführt, um zu sehen, wie variabel die Ergebnisse …


4
Quervalidierung und Parametertuning
Kann mir jemand sagen, was genau eine Kreuzvalidierungsanalyse als Ergebnis ergibt? Ist es nur die durchschnittliche Genauigkeit oder gibt es ein Modell mit eingestellten Parametern? Ich habe nämlich irgendwo gehört, dass die Kreuzvalidierung für die Parametereinstellung verwendet wird.

5
Schnelle Methode zum Finden der besten Metaparameter von SVM (das ist schneller als die Rastersuche)
Ich verwende SVM-Modelle zur kurzfristigen Vorhersage von Luftschadstoffen. Um ein neues Modell zu trainieren, muss ich geeignete Metaparameter für ein SVM-Modell finden (ich meine C, Gamma usw.). In der Libsvm-Dokumentation (und in vielen anderen Büchern, die ich gelesen habe) wird vorgeschlagen, diese Parameter mithilfe der Rastersuche zu finden. Daher trainiere …

2
Warum Platt's Skalierung verwenden?
Um ein Konfidenzniveau auf eine Wahrscheinlichkeit beim überwachten Lernen zu kalibrieren (z. B. um das Vertrauen aus einer SVM oder einem Entscheidungsbaum unter Verwendung von überabgetasteten Daten abzubilden), besteht eine Methode in der Verwendung der Plattschen Skalierung (z. B. Erhalten kalibrierter Wahrscheinlichkeiten aus dem Boosten) ). Grundsätzlich verwendet man die …

1
Wie erstelle ich das endgültige Modell und optimiere den Wahrscheinlichkeitsschwellenwert nach einer verschachtelten Kreuzvalidierung?
Erstens, Entschuldigung für das Posten einer Frage, die hier , hier , hier , hier , hier bereits ausführlich besprochen wurde, und zum Aufwärmen eines alten Themas. Ich weiß, dass @DikranMarsupial ausführlich über dieses Thema in Beiträgen und Fachzeitschriften geschrieben hat, aber ich bin immer noch verwirrt, und der Anzahl …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.