Statistiken und Big Data cross-validation

11

Gibt es einen Grund, den AIC oder den BIC dem anderen vorzuziehen?

Sowohl der AIC als auch der BIC sind Methoden zur Bewertung der Modellanpassung, die für die Anzahl der geschätzten Parameter bestraft werden. Wie ich es verstehe, bestraft BIC Modelle mehr für freie Parameter als AIC. Gibt es neben einer Präferenz, die auf der Stringenz der Kriterien basiert, andere Gründe, AIC …

222 modeling aic cross-validation bic model-selection

6

Wie wählt man ein Vorhersagemodell nach einer k-fachen Kreuzvalidierung?

Ich frage mich, wie ich ein Vorhersagemodell auswählen soll, nachdem ich die K-fache Kreuzvalidierung durchgeführt habe. Dies mag umständlich formuliert sein. Lassen Sie mich dies näher erläutern: Wenn ich eine K-fache Kreuzvalidierung durchführe, verwende ich K Teilmengen der Trainingsdaten und erhalte K verschiedene Modelle. Ich würde gerne wissen, wie man …

148 cross-validation model-selection

5

Training mit dem vollständigen Datensatz nach Quervalidierung?

Ist es immer eine gute Idee, nach einer Kreuzvalidierung mit dem vollständigen Datensatz zu trainieren ? Anders ausgedrückt, ist es in Ordnung, mit allen Mustern in meinem Datensatz zu trainieren und nicht zu überprüfen, ob diese bestimmte Passform überpasst ? Hintergrundinformationen zum Problem: Sagen wir , ich habe eine Familie …

139 machine-learning cross-validation model-selection

4

Auswahl von K bei der K-fachen Kreuzvalidierung

Ich habe die fache Kreuzvalidierung jetzt einige Male verwendet, um die Leistung einiger Lernalgorithmen zu bewerten, aber ich war immer verwirrt, wie ich den Wert von wählen sollte .KKKKKKK Ich habe oft einen Wert von gesehen und verwendet , aber das scheint mir völlig willkürlich zu sein, und ich verwende …

136 machine-learning classification cross-validation

5

Unterschiede zwischen Kreuzvalidierung und Bootstrapping zur Abschätzung des Vorhersagefehlers

Ich möchte, dass Ihre Gedanken zu den Unterschieden zwischen Kreuzvalidierung und Bootstrapping den Vorhersagefehler abschätzen. Funktioniert man besser für kleine Datenmengen oder große Datenmengen?

102 cross-validation predictive-models bootstrap

3

Verschachtelte Kreuzvalidierung für die Modellauswahl

Wie kann man verschachtelte Kreuzvalidierung für die Modellauswahl verwenden ? Nach dem, was ich online gelesen habe, funktioniert der verschachtelte Lebenslauf wie folgt: Es gibt die innere CV-Schleife, in der wir eine Rastersuche durchführen können (z. B. Ausführen von K-Fold für jedes verfügbare Modell, z. B. Kombination von Hyperparametern / …

91 cross-validation model-selection

7

Bias und Varianz in der Leave-One-Out- vs. K-Fold-Kreuzvalidierung

Wie vergleichen sich verschiedene Kreuzvalidierungsmethoden in Bezug auf Modellvarianz und Verzerrung? Meine Frage ist zum Teil durch diesen Thread motiviert: Optimale Anzahl von Falten bei der fachen Kreuzvalidierung: Ist ein ausschließlicher Lebenslauf immer die beste Wahl? KKK. Die dortige Antwort legt nahe, dass Modelle, die mit einer einmaligen Kreuzvalidierung erlernt …

83 machine-learning variance cross-validation bias bias-variance-tradeoff

5

Gegenvalidierung in Klartext?

Wie würden Sie jemandem ohne Hintergrundinformationen zur Datenanalyse die Kreuzvalidierung beschreiben ?

77 cross-validation

3

Merkmalsauswahl und Kreuzvalidierung

Ich habe in letzter Zeit viel auf dieser Site (@Aniko, @Dikran Marsupial, @Erik) und anderswo über das Problem der Überanpassung bei der Kreuzvalidierung gelesen - (Smialowski et al. 2010, Bioinformatics, Hastie, Elements of Statistics Learning). Der Vorschlag ist, dass jede überwachte Merkmalsauswahl (unter Verwendung der Korrelation mit Klassenbezeichnungen), die außerhalb …

76 cross-validation feature-selection

6

Featureauswahl für "endgültiges" Modell bei der Durchführung einer Gegenprüfung beim maschinellen Lernen

Ich bin etwas verwirrt über die Funktionsauswahl und das maschinelle Lernen und habe mich gefragt, ob Sie mir helfen könnten. Ich habe ein Microarray-Dataset, das in zwei Gruppen eingeteilt ist und über 1000 Funktionen verfügt. Mein Ziel ist es, eine kleine Anzahl von Genen (meine Merkmale) (10-20) in einer Signatur …

76 machine-learning classification cross-validation feature-selection genetics

5

Verwendung der k-fachen Kreuzvalidierung für die Auswahl von Zeitreihenmodellen

Frage: Ich möchte sicher sein, ob die Verwendung der k-fachen Kreuzvalidierung mit Zeitreihen unkompliziert ist oder ob man vor der Verwendung besondere Aufmerksamkeit schenken muss. Hintergrund: Ich modelliere eine 6-Jahres-Zeitreihe (mit Semi-Markov-Kette) mit einer Datenerfassung alle 5 Minuten. Um mehrere Modelle zu vergleichen, verwende ich eine 6-fache Kreuzvalidierung, indem ich …

70 time-series modeling cross-validation

1

Wie kann der Datensatz für die Kreuzvalidierung, Lernkurve und Endbewertung aufgeteilt werden?

Was ist eine geeignete Strategie zur Aufteilung des Datensatzes? Ich bitte um Feedback zu dem folgenden Ansatz (nicht zu den einzelnen Parametern wie test_sizeoder n_iter, aber wenn ich verwende X, y, X_train, y_train, X_test, und in y_testgeeigneter Weise und wenn die Sequenz macht Sinn): (Erweiterung dieses Beispiels aus der Scikit-Learn-Dokumentation) …

70 machine-learning cross-validation python scikit-learn

4

Wie werden Hyperparameter von xgboost-Bäumen optimiert?

Ich habe klassenunausgeglichene Daten und möchte die Hyperparameter der verstärkten Locke mit xgboost optimieren. Fragen Gibt es für xgboost ein Äquivalent zu gridsearchcv oder randomsearchcv? Wenn nicht, was ist der empfohlene Ansatz, um die Parameter von xgboost zu optimieren?

68 machine-learning cross-validation xgboost boosting

8

Wie kann ich sicherstellen, dass keine Testdaten in die Trainingsdaten gelangen?

Angenommen, wir haben jemanden, der ein Vorhersagemodell erstellt, der sich jedoch nicht unbedingt mit den richtigen statistischen oder maschinellen Lernprinzipien auskennt. Vielleicht helfen wir dieser Person beim Lernen, oder vielleicht verwendet diese Person ein Softwarepaket, für dessen Verwendung nur minimale Kenntnisse erforderlich sind. Nun könnte diese Person sehr wohl erkennen, …

60 machine-learning classification predictive-models cross-validation out-of-sample

10

Validierungsfehler kleiner als Trainingsfehler?

Ich habe hier und hier zwei Fragen zu diesem Problem gefunden, aber es gibt noch keine offensichtliche Antwort oder Erklärung. Ich erzwinge dasselbe Problem, bei dem der Überprüfungsfehler geringer ist als der Trainingsfehler in meinem Convolution Neural Network. Was bedeutet das?

57 machine-learning mathematical-statistics neural-networks cross-validation

Als «cross-validation» getaggte Fragen