Wiederholtes Zurückhalten von Teilmengen der Daten während der Modellanpassung, um die Modellleistung für die Teilmengen der zurückgehaltenen Daten zu quantifizieren.
In seiner Arbeit Lineare Modellauswahl durch Kreuzvalidierung zeigt Jun Shao, dass für das Problem der Variablenauswahl bei der multivariaten linearen Regression die Methode der ausschließlichen Kreuzvalidierung (LOOCV) „asymptotisch inkonsistent“ ist. Im Klartext werden tendenziell Modelle mit zu vielen Variablen ausgewählt. In einer Simulationsstudie zeigte Shao, dass LOOCV selbst bei nur …
Mein Verständnis ist , dass , selbst wenn nach ordnungsgemäßem Kreuzvalidierung und Modellauswahlverfahren, Überanpassung wird , wenn man sucht nach einem Modell passiert schwer genug , wenn man nicht erlegt Beschränkungen Modellkomplexität, period. Darüber hinaus wird häufig versucht, aus den Daten Strafen für die Modellkomplexität zu lernen, die den Schutz …
Hinweis: Groß- / Kleinschreibung ist n >> p Ich lese Elemente des statistischen Lernens und es gibt verschiedene Erwähnungen über den "richtigen" Weg zur Kreuzvalidierung (z. B. Seite 60, Seite 245). Insbesondere ist meine Frage, wie das endgültige Modell (ohne einen separaten Testsatz) mit einem k-fach CV oder einem Bootstrapping …
Ich habe über die k-fach-Validierung gelesen und möchte sicherstellen, dass ich verstehe, wie es funktioniert. Ich weiß, dass für die Holdout-Methode die Daten in drei Gruppen aufgeteilt werden und die Testgruppe nur ganz am Ende zur Bewertung der Leistung des Modells verwendet wird, während die Validierungsgruppe zum Optimieren von Hyperparametern …
Ich führte eine 10-fache Kreuzvalidierung mit verschiedenen binären Klassifizierungsalgorithmen mit demselben Datensatz durch und erhielt sowohl mikro- als auch makromittelte Ergebnisse. Es sollte erwähnt werden, dass dies ein Mehrfachetiketten-Klassifizierungsproblem war. In meinem Fall werden echte Negative und echte Positive gleich gewichtet. Das bedeutet, dass die korrekte Vorhersage von echten Negativen …
Ich weiß, dass das Optimieren von Hyperparametern außerhalb der Kreuzvalidierung zu verzerrt hohen Schätzungen der externen Validität führen kann, da der Datensatz, mit dem Sie die Leistung messen, derselbe ist, den Sie zum Optimieren der Features verwendet haben. Ich frage mich, wie schlimm dieses Problem ist . Ich kann verstehen, …
Ich teste verschiedene Klassifikatoren in einem Datensatz, in dem es 5 Klassen gibt und jede Instanz zu einer oder mehreren dieser Klassen gehören kann. Daher verwende ich speziell die Multi-Label-Klassifikatoren von scikit-learn sklearn.multiclass.OneVsRestClassifier. Jetzt möchte ich eine Kreuzvalidierung mit der durchführen sklearn.cross_validation.StratifiedKFold. Dies erzeugt den folgenden Fehler: Traceback (most recent …
Ich verwende libsvm im C-SVC-Modus mit einem Polynomkern der Stufe 2 und muss mehrere SVMs trainieren. Jedes Trainingsset enthält 10 Features und 5000 Vektoren. Während des Trainings erhalte ich diese Warnung für die meisten SVMs, die ich trainiere: WARNING: reaching max number of iterations optimization finished, #iter = 10000000 Könnte …
Unter der Annahme eines hierarchischen Modells möchte ich, dass ein zweistufiger Prozess zum Modell passt. Korrigieren Sie zuerst eine Handvoll Hyperparameter und führen Sie dann die Bayes'sche Inferenz für die restlichen Parameter . Zur Fixierung der Hyperparameter überlege ich mir zwei Möglichkeiten.θ ϕp ( x | ϕ , θ )p(x|ϕ,θ)p(x|\phi,\theta)θθ\thetaϕϕ\phi …
Zwei gängige Ansätze zur Auswahl korrelierter Variablen sind Signifikanztests und Kreuzvalidierung. Welches Problem versucht jeder zu lösen und wann würde ich eins dem anderen vorziehen?
Präzision ist definiert als: p = true positives / (true positives + false positives) Ist es richtig, dass sich die Genauigkeit 1 nähert true positivesund false positivessich 0 nähert? Gleiche Frage zum Rückruf: r = true positives / (true positives + false negatives) Ich führe derzeit einen statistischen Test durch, …
Ich habe viel Zeit in die Entwicklung von Methoden und Software für die Validierung von Vorhersagemodellen im Bereich der traditionellen Statistik investiert. Wenn ich mehr Bayes'sche Ideen in die Praxis umsetze und unterrichte, sehe ich einige wesentliche Unterschiede, die ich berücksichtigen muss. Erstens fordert die Bayes'sche Vorhersagemodellierung den Analysten auf, …
Kann das R- caretPaket sowohl für das Modell alphaals auch lambdafür das glmnetModell eine Kreuzvalidierung durchführen? Diesen Code ausführen, eGrid <- expand.grid(.alpha = (1:10) * 0.1, .lambda = (1:10) * 0.1) Control <- trainControl(method = "repeatedcv",repeats = 3,verboseIter =TRUE) netFit <- train(x =train_features, y = y_train, method = "glmnet", tuneGrid …
Ich bin verwirrt darüber, wie die Daten für die k-fache Kreuzvalidierung des Ensemble-Lernens aufgeteilt werden sollen. Angenommen, ich habe einen Lernrahmen für die Klassifizierung von Ensembles. Meine erste Ebene enthält die Klassifizierungsmodelle, z. B. SVM, Entscheidungsbäume. Meine zweite Ebene enthält ein Abstimmungsmodell, das die Vorhersagen aus der ersten Ebene kombiniert …
Ich würde gerne wissen, ob die Verwendung geschichteter Stichproben anstelle von Zufallsstichproben einige Vorteile hat, wenn der ursprüngliche Datensatz in Trainings- und Testsätze für die Klassifizierung aufgeteilt wird. Bringt geschichtete Stichprobe mehr Verzerrung in den Klassifikator als zufällige Stichprobe? Die Anwendung, für die ich eine geschichtete Stichprobe zur Datenaufbereitung verwenden …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.