Als «out-of-sample» getaggte Fragen

Bezieht sich auf die Praxis der Bewertung der Modellleistung anhand eines "Test" - oder "Holdout" - oder "Out-of-Sample" -Datensatzes, der nicht für die Modellbildung verwendet wurde.

8
Wie kann ich sicherstellen, dass keine Testdaten in die Trainingsdaten gelangen?
Angenommen, wir haben jemanden, der ein Vorhersagemodell erstellt, der sich jedoch nicht unbedingt mit den richtigen statistischen oder maschinellen Lernprinzipien auskennt. Vielleicht helfen wir dieser Person beim Lernen, oder vielleicht verwendet diese Person ein Softwarepaket, für dessen Verwendung nur minimale Kenntnisse erforderlich sind. Nun könnte diese Person sehr wohl erkennen, …

4
Hat die Zeitschrift "Science" den "Garden of Forking Pathes Analysis" gebilligt?
Die Idee der adaptiven Datenanalyse ist, dass Sie Ihren Plan zur Analyse der Daten ändern, wenn Sie mehr darüber erfahren. Bei der explorativen Datenanalyse (EDA) ist dies im Allgemeinen eine gute Idee (Sie suchen häufig nach unvorhergesehenen Mustern in den Daten), bei einer bestätigenden Studie wird dies jedoch allgemein als …

5
Neue revolutionäre Art des Data Mining?
Der folgende Auszug ist aus Schwagers Hedge Fund Market Wizzards (Mai 2012), einem Interview mit dem durchweg erfolgreichen Hedge Fund Manager Jaffray Woodriff: Auf die Frage: "Was sind die schlimmsten Fehler, die Menschen beim Data Mining machen?": Viele Leute denken, dass sie in Ordnung sind, weil sie In-Sample-Daten zum Training …


1
Ist die private Bestenliste von Kaggle ein guter Indikator für die Out-of-Sample-Leistung des Gewinnermodells?
Während die Ergebnisse des privaten Testsets nicht zur weiteren Verfeinerung des Modells verwendet werden können, wird doch anhand der Ergebnisse des privaten Testsets eine Modellauswahl aus einer Vielzahl von Modellen durchgeführt. Würden Sie nicht allein durch diesen Prozess zu einer Überanpassung des privaten Test-Sets führen? Laut "Pseudomathematik und Finanzscharlatanismus: Die …

4
Vorhersagemodelle: Statistiken können das maschinelle Lernen unmöglich übertreffen? [geschlossen]
Geschlossen . Diese Frage muss gezielter gestellt werden . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie sich nur auf ein Problem konzentriert, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 2 Jahren . Ich verfolge derzeit ein Masterstudium mit Schwerpunkt …

3
Warum wird die Holdout-Methode (Aufteilen von Daten in Training und Test) in der klassischen Statistik nicht verwendet?
In meinem Unterricht wurde die Holdout-Methode eingeführt, um die Modellleistung zu bewerten. Als ich meinen ersten Kurs über lineare Modelle belegte, wurde dies jedoch nicht als Mittel zur Modellvalidierung oder -bewertung eingeführt. Meine Online-Recherche zeigt auch keinerlei Schnittmenge. Warum wird die Holdout-Methode in der klassischen Statistik nicht verwendet?


4
Was ist der geeignetere Weg, um ein Hold-out-Set zu erstellen: einige Themen zu entfernen oder einige Beobachtungen von jedem Thema zu entfernen?
Ich habe einen Datensatz mit 26 Funktionen und 31000 Zeilen. Es ist der Datensatz von 38 Probanden. Es ist für ein biometrisches System. Ich möchte also in der Lage sein, Themen zu identifizieren. Ich weiß, dass ich einige Werte entfernen muss, um einen Testsatz zu haben. Was ist besser und …

1
Erfordert die Modellierung mit zufälligen Wäldern eine Kreuzvalidierung?
Soweit ich gesehen habe, neigen die Meinungen dazu dazu. Best Practice würde sicherlich die Verwendung einer Kreuzvalidierung vorschreiben (insbesondere beim Vergleich von RFs mit anderen Algorithmen im selben Datensatz). Andererseits gibt die ursprüngliche Quelle an, dass die Tatsache, dass der OOB-Fehler während des Modelltrainings berechnet wird, ein ausreichender Indikator für …

2
Eine "signifikante Variable", die die Vorhersagen außerhalb der Stichprobe nicht verbessert - wie zu interpretieren?
Ich habe eine Frage, von der ich denke, dass sie für viele Benutzer ziemlich einfach sein wird. Ich verwende lineare Regressionsmodelle, um (i) die Beziehung mehrerer erklärender Variablen und meiner Antwortvariablen zu untersuchen und (ii) meine Antwortvariable unter Verwendung der erklärenden Variablen vorherzusagen. Eine bestimmte erklärende Variable X scheint meine …

1
Wie berechnet man aus der Probe R im Quadrat?
Ich weiß, dass dies wahrscheinlich woanders diskutiert wurde, aber ich konnte keine explizite Antwort finden. Ich versuche, die Formel zu verwenden, um eines linearen Regressionsmodells außerhalb der Stichprobe zu berechnen , wobei die Summe der quadratischen Residuen und die Gesamtsumme der Quadrate ist. Für das Trainingsset ist das klarR2=1−SSR/SSTR2=1−SSR/SSTR^2 = …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.