Wiederholtes Zurückhalten von Teilmengen der Daten während der Modellanpassung, um die Modellleistung für die Teilmengen der zurückgehaltenen Daten zu quantifizieren.
Kann Regularisierung hilfreich sein, wenn wir nur die Modellparameter schätzen (und interpretieren) möchten, nicht aber Prognosen oder Vorhersagen? Ich sehe, wie nützlich Regularisierung / Kreuzvalidierung ist, wenn Sie gute Prognosen für neue Daten erstellen möchten. Aber was ist, wenn Sie traditionelle Wirtschaftswissenschaften betreiben und sich nur für die Schätzung von …
In den Lehrbüchern und YouTube-Vorlesungen habe ich viel über iterative Modelle wie Boosten gelernt, aber ich habe nie etwas darüber gesehen, wie man ein Vorhersageintervall ableitet. Kreuzvalidierung wird für Folgendes verwendet: Modellauswahl : Probieren Sie verschiedene Modelle aus und wählen Sie das Modell , das am besten passt. Verwenden Sie …
Ich passe ein Bayesianisches HLM in JAGS mit k-facher Kreuzvalidierung an (k = 5). Ich möchte wissen, ob die Schätzungen des Parameters über alle Falten hinweg stabil sind. Wie geht das am besten?ββ\beta Eine Idee ist es, die Unterschiede der Nachfolger von zu finden und festzustellen , ob 0 im …
Ich habe einen Datensatz mit 140000 Beispielen und 30 Funktionen, für die ich mehrere Klassifikatoren für eine binäre Klassifizierung trainiere (SVM, Logistic Regression, Random Forest usw.). In vielen Fällen ist die Optimierung von Hyperparametern für den gesamten Datensatz mithilfe der Raster- oder Zufallssuche zeitlich zu kostspielig. Ich begann mit der …
Ich weiß, dass ich die Daten in Trainings- / Testsätze aufteilen muss, um auf die Leistung des Klassifikators zugreifen zu können. Aber dies zu lesen : Bei der Auswertung verschiedener Einstellungen („Hyperparameter“) für Schätzer, z. B. der C-Einstellung, die für eine SVM manuell festgelegt werden muss, besteht weiterhin die Gefahr …
Angenommen, ich mache eine K-fache Kreuzvalidierung mit K = 10 Falten. Es wird eine Verwirrungsmatrix für jede Falte geben. Soll ich beim Berichten der Ergebnisse die durchschnittliche Verwirrungsmatrix berechnen oder nur die Verwirrungsmatrizen summieren?
Aus einer Einführung in das statistische Lernen von James et al. Geht hervor, dass die LOOCV-Schätzung (Leave-One-Out-Cross-Validation) durch wobei .CV(n)=1n∑i=1nMSEiCV(n)=1n∑i=1nMSEi\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\text{MSE}_iMSEi=(yi−y^i)2MSEi=(yi−y^i)2\text{MSE}_i = (y_i-\hat{y}_i)^2 Ohne Beweis besagt Gleichung (5.2), dass für eine Regression der kleinsten Quadrate oder des Polynoms (ob dies für die Regression nur einer Variablen gilt, ist mir …
Ich habe einen Datensatz mit N ~ 5000 und ungefähr 1/2, der auf mindestens einer wichtigen Variablen fehlt. Die Hauptanalysemethode sind Cox-proportionale Gefahren. Ich plane mehrere Anrechnungen. Ich werde mich auch in einen Zug und ein Test-Set aufteilen. Sollte ich die Daten aufteilen und dann separat unterstellen oder unterstellen und …
Ich benutze cv.glmnet, um Prädiktoren zu finden. Das Setup, das ich verwende, ist wie folgt: lassoResults<-cv.glmnet(x=countDiffs,y=responseDiffs,alpha=1,nfolds=cvfold) bestlambda<-lassoResults$lambda.min results<-predict(lassoResults,s=bestlambda,type="coefficients") choicePred<-rownames(results)[which(results !=0)] Um sicherzustellen, dass die Ergebnisse reproduzierbar sind, habe ich set.seed(1). Die Ergebnisse sind sehr unterschiedlich. Ich habe genau den gleichen Code 100 ausgeführt, um zu sehen, wie variabel die Ergebnisse …
Angenommen, ich habe normalverteilte Daten. Für jedes Element der Daten möchte ich überprüfen, wie viele SDs vom Mittelwert entfernt sind. Es kann einen Ausreißer in den Daten geben (wahrscheinlich nur einen, aber möglicherweise auch zwei oder drei) oder nicht, aber dieser Ausreißer ist im Grunde das, wonach ich suche. Ist …
Kann mir jemand sagen, was genau eine Kreuzvalidierungsanalyse als Ergebnis ergibt? Ist es nur die durchschnittliche Genauigkeit oder gibt es ein Modell mit eingestellten Parametern? Ich habe nämlich irgendwo gehört, dass die Kreuzvalidierung für die Parametereinstellung verwendet wird.
Ich verwende SVM-Modelle zur kurzfristigen Vorhersage von Luftschadstoffen. Um ein neues Modell zu trainieren, muss ich geeignete Metaparameter für ein SVM-Modell finden (ich meine C, Gamma usw.). In der Libsvm-Dokumentation (und in vielen anderen Büchern, die ich gelesen habe) wird vorgeschlagen, diese Parameter mithilfe der Rastersuche zu finden. Daher trainiere …
Um ein Konfidenzniveau auf eine Wahrscheinlichkeit beim überwachten Lernen zu kalibrieren (z. B. um das Vertrauen aus einer SVM oder einem Entscheidungsbaum unter Verwendung von überabgetasteten Daten abzubilden), besteht eine Methode in der Verwendung der Plattschen Skalierung (z. B. Erhalten kalibrierter Wahrscheinlichkeiten aus dem Boosten) ). Grundsätzlich verwendet man die …
Erstens, Entschuldigung für das Posten einer Frage, die hier , hier , hier , hier , hier bereits ausführlich besprochen wurde, und zum Aufwärmen eines alten Themas. Ich weiß, dass @DikranMarsupial ausführlich über dieses Thema in Beiträgen und Fachzeitschriften geschrieben hat, aber ich bin immer noch verwirrt, und der Anzahl …
Wenn ich Daten habe und eine Klassifizierung (sagen wir zufällige Gesamtstruktur für diese Daten) mit Kreuzvalidierung (sagen wir 5-fach) durchführe, kann ich dann den Schluss ziehen, dass meine Methode keine Überanpassung aufweist?
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.