Als «cross-validation» getaggte Fragen

Wiederholtes Zurückhalten von Teilmengen der Daten während der Modellanpassung, um die Modellleistung für die Teilmengen der zurückgehaltenen Daten zu quantifizieren.

10
Hold-out-Validierung vs. Cross-Validierung
Mir scheint, dass eine Hold-out-Validierung nutzlos ist. Das heißt, die Aufteilung des Originaldatensatzes in zwei Teile (Training und Testen) und die Verwendung der Testergebnisse als Verallgemeinerungsmaßnahme ist etwas nutzlos. Die K-fache Kreuzvalidierung scheint bessere Annäherungen an die Generalisierung zu liefern (da sie in jedem Punkt trainiert und testet). Warum sollten …


3
Verständnis der geschichteten Kreuzvalidierung
Was ist der Unterschied zwischen geschichteter Kreuzvalidierung und Kreuzvalidierung ? Wikipedia sagt: Bei der geschichteten k-fach Kreuzvalidierung werden die Falten so ausgewählt, dass der mittlere Antwortwert in allen Falten ungefähr gleich ist. Bei einer dichotomen Klassifizierung bedeutet dies, dass jede Falte ungefähr die gleichen Anteile der beiden Arten von Klassenbezeichnungen …

6
Ist die Gratregression in hohen Dimensionen nutzlos (
Betrachten Sie ein gutes altes Regressionsproblem mit Prädiktoren und Stichprobengröße . Die übliche Weisheit ist, dass der OLS-Schätzer zu hoch ist und im Allgemeinen von dem Kamm-Regressions-Schätzer übertroffen wird:Es ist Standard, eine Kreuzvalidierung zu verwenden, um einen optimalen Regularisierungsparameter . Hier verwende ich einen 10-fachen Lebenslauf. Klarstellungsaktualisierung: Wenn , verstehe …

1
Wie wende ich Standardisierung / Normalisierung auf Trainings- und Testsets an, wenn Vorhersage das Ziel ist?
Wandle ich alle meine Daten oder Falze (wenn der Lebenslauf angewendet wird) gleichzeitig um? z.B (allData - mean(allData)) / sd(allData) Wandle ich Zugset und Testset getrennt um? z.B (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) Oder transformiere ich Triebzüge und verwende Berechnungen auf dem Testsatz? z.B (trainData …

2
Optimale Anzahl von Falten bei der fachen Kreuzvalidierung: Ist ein aussagekräftiger Lebenslauf immer die beste Wahl?
Gibt es abgesehen von Überlegungen zur Rechenleistung Gründe zu der Annahme, dass eine Erhöhung der Anzahl der Falten bei der Kreuzvalidierung zu einer besseren Modellauswahl / -validierung führt (dh je höher die Anzahl der Falten, desto besser)? Wird das Argument auf die Spitze getrieben, führt eine ausschließliche Kreuzvalidierung zwangsläufig zu …

4
Kompendium der Kreuzvalidierungstechniken
Ich frage mich, ob irgendjemand von einem Kompendium von Kreuzvalidierungstechniken mit einer Diskussion der Unterschiede zwischen ihnen und einem Leitfaden, wann jeder von ihnen zu verwenden ist, weiß. Wikipedia hat eine Liste der gebräuchlichsten Techniken, aber ich bin gespannt, ob es andere Techniken gibt und ob es Taxonomien dafür gibt. …

3
Empirische Begründung für die eine Standardfehlerregel bei Verwendung der Kreuzvalidierung
Gibt es empirische Studien, die die Anwendung der einen Standardfehlerregel zugunsten von Sparsamkeit rechtfertigen? Es hängt natürlich vom Datenerzeugungsprozess der Daten ab, aber alles, was einen großen Datenbestand analysiert, wäre eine sehr interessante Lektüre. Die "Ein-Standard-Fehler-Regel" wird angewendet, wenn Modelle durch Kreuzvalidierung (oder allgemeiner durch ein zufallsbasiertes Verfahren) ausgewählt werden. …

3
Varianz der
TL, DR: Es sieht so aus, als ob entgegen häufig wiederholter Ratschläge die einmalige Kreuzvalidierung (LOO-CV) - das heißt, derKKK fache CV mitKKK (die Anzahl der Falten) ist gleichNNN (die Anzahl) der Trainingsbeobachtungen) - liefert Schätzungen des Generalisierungsfehlers, diefür jedes K am wenigsten variabel sind, und nicht die variabelsten, wobei …

7
Kann eine Kreuzvalidierung zur kausalen Inferenz verwendet werden?
In allen mir vertrauten Zusammenhängen wird die Kreuzvalidierung ausschließlich mit dem Ziel verwendet, die Vorhersagegenauigkeit zu erhöhen. Kann die Logik der Kreuzvalidierung bei der Schätzung der unverzerrten Beziehungen zwischen Variablen erweitert werden? Während dieser Artikel von Richard Berk die Verwendung eines Hold-Out-Beispiels für die Parameterauswahl im "endgültigen" Regressionsmodell demonstriert (und …

5
Validierungsübergreifende Zeitreihenanalyse
Ich habe das Caret-Paket in R verwendet, um Vorhersagemodelle für Klassifizierung und Regression zu erstellen. Caret bietet eine einheitliche Oberfläche, um Modell-Hyperparameter durch Cross-Validierung oder Boot-Strapping zu optimieren. Wenn Sie beispielsweise ein einfaches Modell für die Klassifizierung der nächsten Nachbarn erstellen, wie viele Nachbarn sollten Sie verwenden? 2? 10? 100? …

1
Wann ist eine verschachtelte Kreuzvalidierung wirklich erforderlich und kann einen praktischen Unterschied bewirken?
Wenn Sie eine Kreuzvalidierung für die Modellauswahl (wie z. B. die Optimierung von Hyperparametern) verwenden und die Leistung des besten Modells bewerten, sollten Sie eine verschachtelte Kreuzvalidierung verwenden . Die äußere Schleife dient zur Bewertung der Leistung des Modells, und die innere Schleife dient zur Auswahl des besten Modells. Das …


3
PCA und der Zug / Test Split
Ich habe einen Datensatz, für den ich mehrere Sätze von binären Bezeichnungen habe. Für jeden Etikettensatz trainiere ich einen Klassifikator und bewerte ihn durch Kreuzvalidierung. Ich möchte die Dimensionalität mithilfe der Hauptkomponentenanalyse (PCA) reduzieren. Meine Frage ist: Ist es möglich, die PCA einmal für den gesamten Datensatz durchzuführen und dann …

2
Modellauswahl und Kreuzvalidierung: Der richtige Weg
In CrossValidated gibt es zahlreiche Threads zum Thema Modellauswahl und Kreuzvalidierung. Hier sind ein paar: Interne und externe Kreuzvalidierung und Modellauswahl @ DikranMarsupials beste Antwort auf Feature-Auswahl und Kreuzvalidierung Die Antworten auf diese Themen sind jedoch eher allgemein gehalten und heben hauptsächlich die Probleme hervor, die bei bestimmten Ansätzen zur …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.