Statistiken und Big Data cross-validation

2

Kann Regularisierung hilfreich sein, wenn wir nur an der Modellierung und nicht an der Vorhersage interessiert sind?

Kann Regularisierung hilfreich sein, wenn wir nur die Modellparameter schätzen (und interpretieren) möchten, nicht aber Prognosen oder Vorhersagen? Ich sehe, wie nützlich Regularisierung / Kreuzvalidierung ist, wenn Sie gute Prognosen für neue Daten erstellen möchten. Aber was ist, wenn Sie traditionelle Wirtschaftswissenschaften betreiben und sich nur für die Schätzung von …

19 cross-validation econometrics model-selection interpretation regularization

1

Vorhersageintervall basierend auf Kreuzvalidierung (CV)

In den Lehrbüchern und YouTube-Vorlesungen habe ich viel über iterative Modelle wie Boosten gelernt, aber ich habe nie etwas darüber gesehen, wie man ein Vorhersageintervall ableitet. Kreuzvalidierung wird für Folgendes verwendet: Modellauswahl : Probieren Sie verschiedene Modelle aus und wählen Sie das Modell , das am besten passt. Verwenden Sie …

19 cross-validation boosting prediction-interval

2

Stabilität der Kreuzvalidierung in Bayes'schen Modellen

Ich passe ein Bayesianisches HLM in JAGS mit k-facher Kreuzvalidierung an (k = 5). Ich möchte wissen, ob die Schätzungen des Parameters über alle Falten hinweg stabil sind. Wie geht das am besten?ββ\beta Eine Idee ist es, die Unterschiede der Nachfolger von zu finden und festzustellen , ob 0 im …

19 bayesian cross-validation

6

Ist die Optimierung von Hyperparametern für eine Stichprobe eines Datensatzes eine schlechte Idee?

Ich habe einen Datensatz mit 140000 Beispielen und 30 Funktionen, für die ich mehrere Klassifikatoren für eine binäre Klassifizierung trainiere (SVM, Logistic Regression, Random Forest usw.). In vielen Fällen ist die Optimierung von Hyperparametern für den gesamten Datensatz mithilfe der Raster- oder Zufallssuche zeitlich zu kostspielig. Ich begann mit der …

19 machine-learning cross-validation hyperparameter

4

Warum das Aufteilen der Daten in das Trainings- und Test-Set nicht ausreicht

Ich weiß, dass ich die Daten in Trainings- / Testsätze aufteilen muss, um auf die Leistung des Klassifikators zugreifen zu können. Aber dies zu lesen : Bei der Auswertung verschiedener Einstellungen („Hyperparameter“) für Schätzer, z. B. der C-Einstellung, die für eine SVM manuell festgelegt werden muss, besteht weiterhin die Gefahr …

18 machine-learning cross-validation

1

Wie wird die Verwirrungsmatrix aus der K-fachen Kreuzvalidierung gemeldet?

Angenommen, ich mache eine K-fache Kreuzvalidierung mit K = 10 Falten. Es wird eine Verwirrungsmatrix für jede Falte geben. Soll ich beim Berichten der Ergebnisse die durchschnittliche Verwirrungsmatrix berechnen oder nur die Verwirrungsmatrizen summieren?

18 machine-learning cross-validation accuracy

1

Nachweis der LOOCV-Formel

Aus einer Einführung in das statistische Lernen von James et al. Geht hervor, dass die LOOCV-Schätzung (Leave-One-Out-Cross-Validation) durch wobei .CV(n)=1n∑i=1nMSEiCV(n)=1n∑i=1nMSEi\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\text{MSE}_iMSEi=(yi−y^i)2MSEi=(yi−y^i)2\text{MSE}_i = (y_i-\hat{y}_i)^2 Ohne Beweis besagt Gleichung (5.2), dass für eine Regression der kleinsten Quadrate oder des Polynoms (ob dies für die Regression nur einer Variablen gilt, ist mir …

18 regression self-study cross-validation least-squares

3

Zurechnung vor oder nach der Aufteilung in Zug und Test?

Ich habe einen Datensatz mit N ~ 5000 und ungefähr 1/2, der auf mindestens einer wichtigen Variablen fehlt. Die Hauptanalysemethode sind Cox-proportionale Gefahren. Ich plane mehrere Anrechnungen. Ich werde mich auch in einen Zug und ein Test-Set aufteilen. Sollte ich die Daten aufteilen und dann separat unterstellen oder unterstellen und …

18 cross-validation survival multiple-imputation train

5

Variabilität der cv.glmnet-Ergebnisse

Ich benutze cv.glmnet, um Prädiktoren zu finden. Das Setup, das ich verwende, ist wie folgt: lassoResults<-cv.glmnet(x=countDiffs,y=responseDiffs,alpha=1,nfolds=cvfold) bestlambda<-lassoResults$lambda.min results<-predict(lassoResults,s=bestlambda,type="coefficients") choicePred<-rownames(results)[which(results !=0)] Um sicherzustellen, dass die Ergebnisse reproduzierbar sind, habe ich set.seed(1). Die Ergebnisse sind sehr unterschiedlich. Ich habe genau den gleichen Code 100 ausgeführt, um zu sehen, wie variabel die Ergebnisse …

18 r cross-validation feature-selection glmnet

1

Können wir einen Mittelwert und eine Standardabweichung auslassen, um die Ausreißer zu ermitteln?

Angenommen, ich habe normalverteilte Daten. Für jedes Element der Daten möchte ich überprüfen, wie viele SDs vom Mittelwert entfernt sind. Es kann einen Ausreißer in den Daten geben (wahrscheinlich nur einen, aber möglicherweise auch zwei oder drei) oder nicht, aber dieser Ausreißer ist im Grunde das, wonach ich suche. Ist …

17 cross-validation standard-deviation mean outliers

4

Quervalidierung und Parametertuning

Kann mir jemand sagen, was genau eine Kreuzvalidierungsanalyse als Ergebnis ergibt? Ist es nur die durchschnittliche Genauigkeit oder gibt es ein Modell mit eingestellten Parametern? Ich habe nämlich irgendwo gehört, dass die Kreuzvalidierung für die Parametereinstellung verwendet wird.

17 cross-validation

5

Schnelle Methode zum Finden der besten Metaparameter von SVM (das ist schneller als die Rastersuche)

Ich verwende SVM-Modelle zur kurzfristigen Vorhersage von Luftschadstoffen. Um ein neues Modell zu trainieren, muss ich geeignete Metaparameter für ein SVM-Modell finden (ich meine C, Gamma usw.). In der Libsvm-Dokumentation (und in vielen anderen Büchern, die ich gelesen habe) wird vorgeschlagen, diese Parameter mithilfe der Rastersuche zu finden. Daher trainiere …

17 cross-validation svm

2

Warum Platt's Skalierung verwenden?

Um ein Konfidenzniveau auf eine Wahrscheinlichkeit beim überwachten Lernen zu kalibrieren (z. B. um das Vertrauen aus einer SVM oder einem Entscheidungsbaum unter Verwendung von überabgetasteten Daten abzubilden), besteht eine Methode in der Verwendung der Plattschen Skalierung (z. B. Erhalten kalibrierter Wahrscheinlichkeiten aus dem Boosten) ). Grundsätzlich verwendet man die …

17 logistic cross-validation calibration

1

Wie erstelle ich das endgültige Modell und optimiere den Wahrscheinlichkeitsschwellenwert nach einer verschachtelten Kreuzvalidierung?

Erstens, Entschuldigung für das Posten einer Frage, die hier , hier , hier , hier , hier bereits ausführlich besprochen wurde, und zum Aufwärmen eines alten Themas. Ich weiß, dass @DikranMarsupial ausführlich über dieses Thema in Beiträgen und Fachzeitschriften geschrieben hat, aber ich bin immer noch verwirrt, und der Anzahl …

17 machine-learning cross-validation model-selection glmnet hyperparameter

3

Reicht eine Kreuzvalidierung aus, um eine Überanpassung zu verhindern?

Wenn ich Daten habe und eine Klassifizierung (sagen wir zufällige Gesamtstruktur für diese Daten) mit Kreuzvalidierung (sagen wir 5-fach) durchführe, kann ich dann den Schluss ziehen, dass meine Methode keine Überanpassung aufweist?

17 cross-validation overfitting

Als «cross-validation» getaggte Fragen