Wiederholtes Zurückhalten von Teilmengen der Daten während der Modellanpassung, um die Modellleistung für die Teilmengen der zurückgehaltenen Daten zu quantifizieren.
Sowohl der AIC als auch der BIC sind Methoden zur Bewertung der Modellanpassung, die für die Anzahl der geschätzten Parameter bestraft werden. Wie ich es verstehe, bestraft BIC Modelle mehr für freie Parameter als AIC. Gibt es neben einer Präferenz, die auf der Stringenz der Kriterien basiert, andere Gründe, AIC …
Ich frage mich, wie ich ein Vorhersagemodell auswählen soll, nachdem ich die K-fache Kreuzvalidierung durchgeführt habe. Dies mag umständlich formuliert sein. Lassen Sie mich dies näher erläutern: Wenn ich eine K-fache Kreuzvalidierung durchführe, verwende ich K Teilmengen der Trainingsdaten und erhalte K verschiedene Modelle. Ich würde gerne wissen, wie man …
Ist es immer eine gute Idee, nach einer Kreuzvalidierung mit dem vollständigen Datensatz zu trainieren ? Anders ausgedrückt, ist es in Ordnung, mit allen Mustern in meinem Datensatz zu trainieren und nicht zu überprüfen, ob diese bestimmte Passform überpasst ? Hintergrundinformationen zum Problem: Sagen wir , ich habe eine Familie …
Ich habe die fache Kreuzvalidierung jetzt einige Male verwendet, um die Leistung einiger Lernalgorithmen zu bewerten, aber ich war immer verwirrt, wie ich den Wert von wählen sollte .KKKKKKK Ich habe oft einen Wert von gesehen und verwendet , aber das scheint mir völlig willkürlich zu sein, und ich verwende …
Ich möchte, dass Ihre Gedanken zu den Unterschieden zwischen Kreuzvalidierung und Bootstrapping den Vorhersagefehler abschätzen. Funktioniert man besser für kleine Datenmengen oder große Datenmengen?
Wie kann man verschachtelte Kreuzvalidierung für die Modellauswahl verwenden ? Nach dem, was ich online gelesen habe, funktioniert der verschachtelte Lebenslauf wie folgt: Es gibt die innere CV-Schleife, in der wir eine Rastersuche durchführen können (z. B. Ausführen von K-Fold für jedes verfügbare Modell, z. B. Kombination von Hyperparametern / …
Wie vergleichen sich verschiedene Kreuzvalidierungsmethoden in Bezug auf Modellvarianz und Verzerrung? Meine Frage ist zum Teil durch diesen Thread motiviert: Optimale Anzahl von Falten bei der fachen Kreuzvalidierung: Ist ein ausschließlicher Lebenslauf immer die beste Wahl? KKK. Die dortige Antwort legt nahe, dass Modelle, die mit einer einmaligen Kreuzvalidierung erlernt …
Ich habe in letzter Zeit viel auf dieser Site (@Aniko, @Dikran Marsupial, @Erik) und anderswo über das Problem der Überanpassung bei der Kreuzvalidierung gelesen - (Smialowski et al. 2010, Bioinformatics, Hastie, Elements of Statistics Learning). Der Vorschlag ist, dass jede überwachte Merkmalsauswahl (unter Verwendung der Korrelation mit Klassenbezeichnungen), die außerhalb …
Ich bin etwas verwirrt über die Funktionsauswahl und das maschinelle Lernen und habe mich gefragt, ob Sie mir helfen könnten. Ich habe ein Microarray-Dataset, das in zwei Gruppen eingeteilt ist und über 1000 Funktionen verfügt. Mein Ziel ist es, eine kleine Anzahl von Genen (meine Merkmale) (10-20) in einer Signatur …
Frage: Ich möchte sicher sein, ob die Verwendung der k-fachen Kreuzvalidierung mit Zeitreihen unkompliziert ist oder ob man vor der Verwendung besondere Aufmerksamkeit schenken muss. Hintergrund: Ich modelliere eine 6-Jahres-Zeitreihe (mit Semi-Markov-Kette) mit einer Datenerfassung alle 5 Minuten. Um mehrere Modelle zu vergleichen, verwende ich eine 6-fache Kreuzvalidierung, indem ich …
Was ist eine geeignete Strategie zur Aufteilung des Datensatzes? Ich bitte um Feedback zu dem folgenden Ansatz (nicht zu den einzelnen Parametern wie test_sizeoder n_iter, aber wenn ich verwende X, y, X_train, y_train, X_test, und in y_testgeeigneter Weise und wenn die Sequenz macht Sinn): (Erweiterung dieses Beispiels aus der Scikit-Learn-Dokumentation) …
Ich habe klassenunausgeglichene Daten und möchte die Hyperparameter der verstärkten Locke mit xgboost optimieren. Fragen Gibt es für xgboost ein Äquivalent zu gridsearchcv oder randomsearchcv? Wenn nicht, was ist der empfohlene Ansatz, um die Parameter von xgboost zu optimieren?
Angenommen, wir haben jemanden, der ein Vorhersagemodell erstellt, der sich jedoch nicht unbedingt mit den richtigen statistischen oder maschinellen Lernprinzipien auskennt. Vielleicht helfen wir dieser Person beim Lernen, oder vielleicht verwendet diese Person ein Softwarepaket, für dessen Verwendung nur minimale Kenntnisse erforderlich sind. Nun könnte diese Person sehr wohl erkennen, …
Ich habe hier und hier zwei Fragen zu diesem Problem gefunden, aber es gibt noch keine offensichtliche Antwort oder Erklärung. Ich erzwinge dasselbe Problem, bei dem der Überprüfungsfehler geringer ist als der Trainingsfehler in meinem Convolution Neural Network. Was bedeutet das?
Mir scheint, dass eine Hold-out-Validierung nutzlos ist. Das heißt, die Aufteilung des Originaldatensatzes in zwei Teile (Training und Testen) und die Verwendung der Testergebnisse als Verallgemeinerungsmaßnahme ist etwas nutzlos. Die K-fache Kreuzvalidierung scheint bessere Annäherungen an die Generalisierung zu liefern (da sie in jedem Punkt trainiert und testet). Warum sollten …
Beim statistischen Lernen wird implizit oder explizit immer davon ausgegangen, dass die Trainingsmenge aus Eingabe- / Antworttupeln besteht , die unabhängig voneinander aus derselben gemeinsamen Verteilung gezogen werden mitD ={ X , y }D={X,y}\mathcal{D} = \{ \bf {X}, \bf{y} \}NNN( Xich, yich)(Xich,yich)({\bf{X}}_i,y_i) P ( X ,y)P(X,y)\mathbb{P}({\bf{X}},y) p ( X , …
Was ist der Unterschied zwischen geschichteter Kreuzvalidierung und Kreuzvalidierung ? Wikipedia sagt: Bei der geschichteten k-fach Kreuzvalidierung werden die Falten so ausgewählt, dass der mittlere Antwortwert in allen Falten ungefähr gleich ist. Bei einer dichotomen Klassifizierung bedeutet dies, dass jede Falte ungefähr die gleichen Anteile der beiden Arten von Klassenbezeichnungen …
Betrachten Sie ein gutes altes Regressionsproblem mit Prädiktoren und Stichprobengröße . Die übliche Weisheit ist, dass der OLS-Schätzer zu hoch ist und im Allgemeinen von dem Kamm-Regressions-Schätzer übertroffen wird:Es ist Standard, eine Kreuzvalidierung zu verwenden, um einen optimalen Regularisierungsparameter . Hier verwende ich einen 10-fachen Lebenslauf. Klarstellungsaktualisierung: Wenn , verstehe …
Wandle ich alle meine Daten oder Falze (wenn der Lebenslauf angewendet wird) gleichzeitig um? z.B (allData - mean(allData)) / sd(allData) Wandle ich Zugset und Testset getrennt um? z.B (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) Oder transformiere ich Triebzüge und verwende Berechnungen auf dem Testsatz? z.B (trainData …
Gibt es abgesehen von Überlegungen zur Rechenleistung Gründe zu der Annahme, dass eine Erhöhung der Anzahl der Falten bei der Kreuzvalidierung zu einer besseren Modellauswahl / -validierung führt (dh je höher die Anzahl der Falten, desto besser)? Wird das Argument auf die Spitze getrieben, führt eine ausschließliche Kreuzvalidierung zwangsläufig zu …
Ich frage mich, ob irgendjemand von einem Kompendium von Kreuzvalidierungstechniken mit einer Diskussion der Unterschiede zwischen ihnen und einem Leitfaden, wann jeder von ihnen zu verwenden ist, weiß. Wikipedia hat eine Liste der gebräuchlichsten Techniken, aber ich bin gespannt, ob es andere Techniken gibt und ob es Taxonomien dafür gibt. …
Gibt es empirische Studien, die die Anwendung der einen Standardfehlerregel zugunsten von Sparsamkeit rechtfertigen? Es hängt natürlich vom Datenerzeugungsprozess der Daten ab, aber alles, was einen großen Datenbestand analysiert, wäre eine sehr interessante Lektüre. Die "Ein-Standard-Fehler-Regel" wird angewendet, wenn Modelle durch Kreuzvalidierung (oder allgemeiner durch ein zufallsbasiertes Verfahren) ausgewählt werden. …
TL, DR: Es sieht so aus, als ob entgegen häufig wiederholter Ratschläge die einmalige Kreuzvalidierung (LOO-CV) - das heißt, derKKK fache CV mitKKK (die Anzahl der Falten) ist gleichNNN (die Anzahl) der Trainingsbeobachtungen) - liefert Schätzungen des Generalisierungsfehlers, diefür jedes K am wenigsten variabel sind, und nicht die variabelsten, wobei …
In allen mir vertrauten Zusammenhängen wird die Kreuzvalidierung ausschließlich mit dem Ziel verwendet, die Vorhersagegenauigkeit zu erhöhen. Kann die Logik der Kreuzvalidierung bei der Schätzung der unverzerrten Beziehungen zwischen Variablen erweitert werden? Während dieser Artikel von Richard Berk die Verwendung eines Hold-Out-Beispiels für die Parameterauswahl im "endgültigen" Regressionsmodell demonstriert (und …
Ich habe das Caret-Paket in R verwendet, um Vorhersagemodelle für Klassifizierung und Regression zu erstellen. Caret bietet eine einheitliche Oberfläche, um Modell-Hyperparameter durch Cross-Validierung oder Boot-Strapping zu optimieren. Wenn Sie beispielsweise ein einfaches Modell für die Klassifizierung der nächsten Nachbarn erstellen, wie viele Nachbarn sollten Sie verwenden? 2? 10? 100? …
Wenn Sie eine Kreuzvalidierung für die Modellauswahl (wie z. B. die Optimierung von Hyperparametern) verwenden und die Leistung des besten Modells bewerten, sollten Sie eine verschachtelte Kreuzvalidierung verwenden . Die äußere Schleife dient zur Bewertung der Leistung des Modells, und die innere Schleife dient zur Auswahl des besten Modells. Das …
Ich versuche herauszufinden, welche Kreuzvalidierungsmethode für meine Situation am besten geeignet ist. Die folgenden Daten sind nur ein Beispiel für die Bearbeitung des Problems (in R), aber meine realen XDaten ( xmat) sind miteinander korreliert und in unterschiedlichem Maße mit der yVariablen ( ymat) korreliert . Ich habe R-Code angegeben, …
Ich habe einen Datensatz, für den ich mehrere Sätze von binären Bezeichnungen habe. Für jeden Etikettensatz trainiere ich einen Klassifikator und bewerte ihn durch Kreuzvalidierung. Ich möchte die Dimensionalität mithilfe der Hauptkomponentenanalyse (PCA) reduzieren. Meine Frage ist: Ist es möglich, die PCA einmal für den gesamten Datensatz durchzuführen und dann …
In CrossValidated gibt es zahlreiche Threads zum Thema Modellauswahl und Kreuzvalidierung. Hier sind ein paar: Interne und externe Kreuzvalidierung und Modellauswahl @ DikranMarsupials beste Antwort auf Feature-Auswahl und Kreuzvalidierung Die Antworten auf diese Themen sind jedoch eher allgemein gehalten und heben hauptsächlich die Probleme hervor, die bei bestimmten Ansätzen zur …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.