Bezieht sich auf die Praxis der Bewertung der Modellleistung anhand eines "Test" - oder "Holdout" - oder "Out-of-Sample" -Datensatzes, der nicht für die Modellbildung verwendet wurde.
Angenommen, wir haben jemanden, der ein Vorhersagemodell erstellt, der sich jedoch nicht unbedingt mit den richtigen statistischen oder maschinellen Lernprinzipien auskennt. Vielleicht helfen wir dieser Person beim Lernen, oder vielleicht verwendet diese Person ein Softwarepaket, für dessen Verwendung nur minimale Kenntnisse erforderlich sind. Nun könnte diese Person sehr wohl erkennen, …
Die Idee der adaptiven Datenanalyse ist, dass Sie Ihren Plan zur Analyse der Daten ändern, wenn Sie mehr darüber erfahren. Bei der explorativen Datenanalyse (EDA) ist dies im Allgemeinen eine gute Idee (Sie suchen häufig nach unvorhergesehenen Mustern in den Daten), bei einer bestätigenden Studie wird dies jedoch allgemein als …
Der folgende Auszug ist aus Schwagers Hedge Fund Market Wizzards (Mai 2012), einem Interview mit dem durchweg erfolgreichen Hedge Fund Manager Jaffray Woodriff: Auf die Frage: "Was sind die schlimmsten Fehler, die Menschen beim Data Mining machen?": Viele Leute denken, dass sie in Ordnung sind, weil sie In-Sample-Daten zum Training …
Ich habe über die k-fach-Validierung gelesen und möchte sicherstellen, dass ich verstehe, wie es funktioniert. Ich weiß, dass für die Holdout-Methode die Daten in drei Gruppen aufgeteilt werden und die Testgruppe nur ganz am Ende zur Bewertung der Leistung des Modells verwendet wird, während die Validierungsgruppe zum Optimieren von Hyperparametern …
Während die Ergebnisse des privaten Testsets nicht zur weiteren Verfeinerung des Modells verwendet werden können, wird doch anhand der Ergebnisse des privaten Testsets eine Modellauswahl aus einer Vielzahl von Modellen durchgeführt. Würden Sie nicht allein durch diesen Prozess zu einer Überanpassung des privaten Test-Sets führen? Laut "Pseudomathematik und Finanzscharlatanismus: Die …
Geschlossen . Diese Frage muss gezielter gestellt werden . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie sich nur auf ein Problem konzentriert, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 2 Jahren . Ich verfolge derzeit ein Masterstudium mit Schwerpunkt …
In meinem Unterricht wurde die Holdout-Methode eingeführt, um die Modellleistung zu bewerten. Als ich meinen ersten Kurs über lineare Modelle belegte, wurde dies jedoch nicht als Mittel zur Modellvalidierung oder -bewertung eingeführt. Meine Online-Recherche zeigt auch keinerlei Schnittmenge. Warum wird die Holdout-Methode in der klassischen Statistik nicht verwendet?
Gibt es einen expliziten Unterschied zwischen in-Probe Prognosen und Pseudo Out-of-Sample - Prognosen . Beides ist im Zusammenhang mit der Bewertung und dem Vergleich von Prognosemodellen gemeint.
Ich habe einen Datensatz mit 26 Funktionen und 31000 Zeilen. Es ist der Datensatz von 38 Probanden. Es ist für ein biometrisches System. Ich möchte also in der Lage sein, Themen zu identifizieren. Ich weiß, dass ich einige Werte entfernen muss, um einen Testsatz zu haben. Was ist besser und …
Soweit ich gesehen habe, neigen die Meinungen dazu dazu. Best Practice würde sicherlich die Verwendung einer Kreuzvalidierung vorschreiben (insbesondere beim Vergleich von RFs mit anderen Algorithmen im selben Datensatz). Andererseits gibt die ursprüngliche Quelle an, dass die Tatsache, dass der OOB-Fehler während des Modelltrainings berechnet wird, ein ausreichender Indikator für …
Ich habe eine Frage, von der ich denke, dass sie für viele Benutzer ziemlich einfach sein wird. Ich verwende lineare Regressionsmodelle, um (i) die Beziehung mehrerer erklärender Variablen und meiner Antwortvariablen zu untersuchen und (ii) meine Antwortvariable unter Verwendung der erklärenden Variablen vorherzusagen. Eine bestimmte erklärende Variable X scheint meine …
Ich weiß, dass dies wahrscheinlich woanders diskutiert wurde, aber ich konnte keine explizite Antwort finden. Ich versuche, die Formel zu verwenden, um eines linearen Regressionsmodells außerhalb der Stichprobe zu berechnen , wobei die Summe der quadratischen Residuen und die Gesamtsumme der Quadrate ist. Für das Trainingsset ist das klarR2=1−SSR/SSTR2=1−SSR/SSTR^2 = …
Ich habe mich immer der Volksweisheit angeschlossen, dass das Verringern der Lernrate in einem GBM (Gradient Boosted Tree Model) die Out-of-Sample-Leistung des Modells nicht beeinträchtigt. Heute bin ich mir nicht so sicher. Ich passe Modelle (Minimierung der Summe der quadratischen Fehler) an den Boston-Gehäusedatensatz an . Hier ist eine Darstellung …
Diese Frage hat hier bereits Antworten : Ist mein Modell basierend auf dem Wert der Diagnosemetrik ( / AUC / Genauigkeit / RMSE usw.) gut? R.2R2R^2 (3 Antworten) Geschlossen vor 7 Monaten . Ich habe Lerndaten, die aus ~ 45.000 Stichproben bestehen, jede hat 21 Funktionen. Ich versuche, einen zufälligen …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.