Als «overfitting» getaggte Fragen

Modellierungsfehler (insbesondere Stichprobenfehler) anstelle von replizierbaren und informativen Beziehungen zwischen Variablen verbessern die Modellanpassungsstatistik, verringern jedoch die Sparsamkeit und verschlechtern die erklärende und prädiktive Validität.



1
Ist die private Bestenliste von Kaggle ein guter Indikator für die Out-of-Sample-Leistung des Gewinnermodells?
Während die Ergebnisse des privaten Testsets nicht zur weiteren Verfeinerung des Modells verwendet werden können, wird doch anhand der Ergebnisse des privaten Testsets eine Modellauswahl aus einer Vielzahl von Modellen durchgeführt. Würden Sie nicht allein durch diesen Prozess zu einer Überanpassung des privaten Test-Sets führen? Laut "Pseudomathematik und Finanzscharlatanismus: Die …

1
Gibt es in der statistischen Lerntheorie nicht ein Problem der Überanpassung eines Testsatzes?
Betrachten wir das Problem beim Klassifizieren des MNIST-Datasets. Laut der MNIST-Webseite von Yann LeCun , "Ciresan et al." 0,23% Fehlerrate beim MNIST-Test mit Convolutional Neural Network. Lassen Sie uns bezeichnen MNIST Trainingssatz als , MNIST Testset als , die letzte Hypothese sie erhalten unter Verwendung von als , und ihre …


2
Welches Maß an Trainingsfehlern für zufällige Wälder?
Ich passe zurzeit zufällige Gesamtstrukturen für ein Klassifizierungsproblem mit dem randomForestPaket in R an und bin nicht sicher, wie Trainingsfehler für diese Modelle gemeldet werden sollen. Mein Trainingsfehler liegt nahe bei 0%, wenn ich ihn mit Vorhersagen berechne, die ich mit dem Befehl erhalte: predict(model, data=X_train) Wo X_trainsind die Trainingsdaten? …




2
Wie passt die k-fache Kreuzvalidierung in den Kontext von Trainings- / Validierungs- / Testsätzen?
Meine Hauptfrage betrifft den Versuch zu verstehen, wie die k-fache Kreuzvalidierung in den Kontext von Trainings- / Validierungs- / Testsätzen passt (wenn sie überhaupt in einen solchen Kontext passt). Normalerweise wird davon gesprochen, die Daten in einen Trainings-, Validierungs- und Testsatz aufzuteilen - beispielsweise in einem Verhältnis von 60/20/20 pro …


1
Verhinderung einer Überanpassung von LSTM bei kleinen Datenmengen
Ich modelliere 15000 Tweets für die Stimmungsvorhersage unter Verwendung eines einschichtigen LSTM mit 128 verborgenen Einheiten unter Verwendung einer word2vec-ähnlichen Darstellung mit 80 Dimensionen. Nach 1 Epoche erhalte ich eine Abstiegsgenauigkeit (38% bei Zufall = 20%). Mehr Training führt dazu, dass die Validierungsgenauigkeit abnimmt, wenn die Trainingsgenauigkeit zu steigen beginnt …



3
Bayesian vs MLE, Überanpassungsproblem
In Bishops PRML-Buch sagt er, dass Überanpassung ein Problem bei der Maximum Likelihood Estimation (MLE) ist und Bayesian dies vermeiden kann. Aber ich denke, Überanpassung ist eher ein Problem bei der Modellauswahl als bei der Methode zur Parameterschätzung. Angenommen, ich habe einen Datensatz , der über f ( x ) …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.