Statistiken und Big Data out-of-sample

8

Wie kann ich sicherstellen, dass keine Testdaten in die Trainingsdaten gelangen?

Angenommen, wir haben jemanden, der ein Vorhersagemodell erstellt, der sich jedoch nicht unbedingt mit den richtigen statistischen oder maschinellen Lernprinzipien auskennt. Vielleicht helfen wir dieser Person beim Lernen, oder vielleicht verwendet diese Person ein Softwarepaket, für dessen Verwendung nur minimale Kenntnisse erforderlich sind. Nun könnte diese Person sehr wohl erkennen, …

60 machine-learning classification predictive-models cross-validation out-of-sample

4

Hat die Zeitschrift "Science" den "Garden of Forking Pathes Analysis" gebilligt?

Die Idee der adaptiven Datenanalyse ist, dass Sie Ihren Plan zur Analyse der Daten ändern, wenn Sie mehr darüber erfahren. Bei der explorativen Datenanalyse (EDA) ist dies im Allgemeinen eine gute Idee (Sie suchen häufig nach unvorhergesehenen Mustern in den Daten), bei einer bestätigenden Studie wird dies jedoch allgemein als …

29 hypothesis-testing overfitting eda out-of-sample differential-privacy

5

Neue revolutionäre Art des Data Mining?

Der folgende Auszug ist aus Schwagers Hedge Fund Market Wizzards (Mai 2012), einem Interview mit dem durchweg erfolgreichen Hedge Fund Manager Jaffray Woodriff: Auf die Frage: "Was sind die schlimmsten Fehler, die Menschen beim Data Mining machen?": Viele Leute denken, dass sie in Ordnung sind, weil sie In-Sample-Daten zum Training …

21 data-mining curve-fitting out-of-sample

3

Benötigen wir ein Test-Set für die Verwendung der k-fachen Kreuzvalidierung?

Ich habe über die k-fach-Validierung gelesen und möchte sicherstellen, dass ich verstehe, wie es funktioniert. Ich weiß, dass für die Holdout-Methode die Daten in drei Gruppen aufgeteilt werden und die Testgruppe nur ganz am Ende zur Bewertung der Leistung des Modells verwendet wird, während die Validierungsgruppe zum Optimieren von Hyperparametern …

21 cross-validation validation out-of-sample

1

Ist die private Bestenliste von Kaggle ein guter Indikator für die Out-of-Sample-Leistung des Gewinnermodells?

Während die Ergebnisse des privaten Testsets nicht zur weiteren Verfeinerung des Modells verwendet werden können, wird doch anhand der Ergebnisse des privaten Testsets eine Modellauswahl aus einer Vielzahl von Modellen durchgeführt. Würden Sie nicht allein durch diesen Prozess zu einer Überanpassung des privaten Test-Sets führen? Laut "Pseudomathematik und Finanzscharlatanismus: Die …

16 model-selection overfitting out-of-sample

4

Vorhersagemodelle: Statistiken können das maschinelle Lernen unmöglich übertreffen? [geschlossen]

Geschlossen . Diese Frage muss gezielter gestellt werden . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie sich nur auf ein Problem konzentriert, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 2 Jahren . Ich verfolge derzeit ein Masterstudium mit Schwerpunkt …

14 machine-learning forecasting predictive-models prediction out-of-sample

3

Warum wird die Holdout-Methode (Aufteilen von Daten in Training und Test) in der klassischen Statistik nicht verwendet?

In meinem Unterricht wurde die Holdout-Methode eingeführt, um die Modellleistung zu bewerten. Als ich meinen ersten Kurs über lineare Modelle belegte, wurde dies jedoch nicht als Mittel zur Modellvalidierung oder -bewertung eingeführt. Meine Online-Recherche zeigt auch keinerlei Schnittmenge. Warum wird die Holdout-Methode in der klassischen Statistik nicht verwendet?

12 regression validation model-evaluation out-of-sample

1

Unterschied zwischen "In-Sample" - und "Pseudo-Out-of-Sample" -Prognosen

Gibt es einen expliziten Unterschied zwischen in-Probe Prognosen und Pseudo Out-of-Sample - Prognosen . Beides ist im Zusammenhang mit der Bewertung und dem Vergleich von Prognosemodellen gemeint.

12 forecasting model-comparison out-of-sample in-sample

4

Was ist der geeignetere Weg, um ein Hold-out-Set zu erstellen: einige Themen zu entfernen oder einige Beobachtungen von jedem Thema zu entfernen?

Ich habe einen Datensatz mit 26 Funktionen und 31000 Zeilen. Es ist der Datensatz von 38 Probanden. Es ist für ein biometrisches System. Ich möchte also in der Lage sein, Themen zu identifizieren. Ich weiß, dass ich einige Werte entfernen muss, um einen Testsatz zu haben. Was ist besser und …

11 machine-learning cross-validation out-of-sample

1

Erfordert die Modellierung mit zufälligen Wäldern eine Kreuzvalidierung?

Soweit ich gesehen habe, neigen die Meinungen dazu dazu. Best Practice würde sicherlich die Verwendung einer Kreuzvalidierung vorschreiben (insbesondere beim Vergleich von RFs mit anderen Algorithmen im selben Datensatz). Andererseits gibt die ursprüngliche Quelle an, dass die Tatsache, dass der OOB-Fehler während des Modelltrainings berechnet wird, ein ausreichender Indikator für …

10 cross-validation random-forest overfitting out-of-sample

2

Eine "signifikante Variable", die die Vorhersagen außerhalb der Stichprobe nicht verbessert - wie zu interpretieren?

Ich habe eine Frage, von der ich denke, dass sie für viele Benutzer ziemlich einfach sein wird. Ich verwende lineare Regressionsmodelle, um (i) die Beziehung mehrerer erklärender Variablen und meiner Antwortvariablen zu untersuchen und (ii) meine Antwortvariable unter Verwendung der erklärenden Variablen vorherzusagen. Eine bestimmte erklärende Variable X scheint meine …

10 statistical-significance predictive-models p-value prediction out-of-sample

1

Wie berechnet man aus der Probe R im Quadrat?

Ich weiß, dass dies wahrscheinlich woanders diskutiert wurde, aber ich konnte keine explizite Antwort finden. Ich versuche, die Formel zu verwenden, um eines linearen Regressionsmodells außerhalb der Stichprobe zu berechnen , wobei die Summe der quadratischen Residuen und die Gesamtsumme der Quadrate ist. Für das Trainingsset ist das klarR2=1−SSR/SSTR2=1−SSR/SSTR^2 = …

10 regression machine-learning r-squared out-of-sample

2

Wie kann eine geringere Lernrate die Leistung eines GBM beeinträchtigen?

Ich habe mich immer der Volksweisheit angeschlossen, dass das Verringern der Lernrate in einem GBM (Gradient Boosted Tree Model) die Out-of-Sample-Leistung des Modells nicht beeinträchtigt. Heute bin ich mir nicht so sicher. Ich passe Modelle (Minimierung der Summe der quadratischen Fehler) an den Boston-Gehäusedatensatz an . Hier ist eine Darstellung …

8 machine-learning boosting out-of-sample

4

Was ist eine gute OOB-Punktzahl für zufällige Wälder mit einer Drei-Klassen-Klassifizierung von sklearn? [Duplikat]

Diese Frage hat hier bereits Antworten : Ist mein Modell basierend auf dem Wert der Diagnosemetrik ( / AUC / Genauigkeit / RMSE usw.) gut? R.2R2R^2 (3 Antworten) Geschlossen vor 7 Monaten . Ich habe Lerndaten, die aus ~ 45.000 Stichproben bestehen, jede hat 21 Funktionen. Ich versuche, einen zufälligen …

8 classification random-forest out-of-sample

Als «out-of-sample» getaggte Fragen