Als «cross-validation» getaggte Fragen

Wiederholtes Zurückhalten von Teilmengen der Daten während der Modellanpassung, um die Modellleistung für die Teilmengen der zurückgehaltenen Daten zu quantifizieren.

4
Wann sind die Ergebnisse von Shao zur einmaligen Kreuzvalidierung anwendbar?
In seiner Arbeit Lineare Modellauswahl durch Kreuzvalidierung zeigt Jun Shao, dass für das Problem der Variablenauswahl bei der multivariaten linearen Regression die Methode der ausschließlichen Kreuzvalidierung (LOOCV) „asymptotisch inkonsistent“ ist. Im Klartext werden tendenziell Modelle mit zu vielen Variablen ausgewählt. In einer Simulationsstudie zeigte Shao, dass LOOCV selbst bei nur …

5
Überanpassung: Keine Wunderwaffe?
Mein Verständnis ist , dass , selbst wenn nach ordnungsgemäßem Kreuzvalidierung und Modellauswahlverfahren, Überanpassung wird , wenn man sucht nach einem Modell passiert schwer genug , wenn man nicht erlegt Beschränkungen Modellkomplexität, period. Darüber hinaus wird häufig versucht, aus den Daten Strafen für die Modellkomplexität zu lernen, die den Schutz …



1
Sollte ich Entscheidungen treffen, die auf mikro- oder makro-gemittelten Bewertungsmaßstäben basieren?
Ich führte eine 10-fache Kreuzvalidierung mit verschiedenen binären Klassifizierungsalgorithmen mit demselben Datensatz durch und erhielt sowohl mikro- als auch makromittelte Ergebnisse. Es sollte erwähnt werden, dass dies ein Mehrfachetiketten-Klassifizierungsproblem war. In meinem Fall werden echte Negative und echte Positive gleich gewichtet. Das bedeutet, dass die korrekte Vorhersage von echten Negativen …


2
Verwendung der Cross-Validation-Funktionen von scikit-learn für Multi-Label-Klassifikatoren
Ich teste verschiedene Klassifikatoren in einem Datensatz, in dem es 5 Klassen gibt und jede Instanz zu einer oder mehreren dieser Klassen gehören kann. Daher verwende ich speziell die Multi-Label-Klassifikatoren von scikit-learn sklearn.multiclass.OneVsRestClassifier. Jetzt möchte ich eine Kreuzvalidierung mit der durchführen sklearn.cross_validation.StratifiedKFold. Dies erzeugt den folgenden Fehler: Traceback (most recent …

1
libsvm "Maximale Anzahl von Iterationen erreicht" Warnung und Kreuzvalidierung
Ich verwende libsvm im C-SVC-Modus mit einem Polynomkern der Stufe 2 und muss mehrere SVMs trainieren. Jedes Trainingsset enthält 10 Features und 5000 Vektoren. Während des Trainings erhalte ich diese Warnung für die meisten SVMs, die ich trainiere: WARNING: reaching max number of iterations optimization finished, #iter = 10000000 Könnte …

2
Kreuzvalidierung gegen empirische Bayes zur Schätzung von Hyperparametern
Unter der Annahme eines hierarchischen Modells möchte ich, dass ein zweistufiger Prozess zum Modell passt. Korrigieren Sie zuerst eine Handvoll Hyperparameter und führen Sie dann die Bayes'sche Inferenz für die restlichen Parameter . Zur Fixierung der Hyperparameter überlege ich mir zwei Möglichkeiten.θ ϕp ( x | ϕ , θ )p(x|ϕ,θ)p(x|\phi,\theta)θθ\thetaϕϕ\phi …


4
Was sind die korrekten Werte für Präzision und Rückruf in Randfällen?
Präzision ist definiert als: p = true positives / (true positives + false positives) Ist es richtig, dass sich die Genauigkeit 1 nähert true positivesund false positivessich 0 nähert? Gleiche Frage zum Rückruf: r = true positives / (true positives + false negatives) Ich führe derzeit einen statistischen Test durch, …
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
Bayesianische Überanpassung
Ich habe viel Zeit in die Entwicklung von Methoden und Software für die Validierung von Vorhersagemodellen im Bereich der traditionellen Statistik investiert. Wenn ich mehr Bayes'sche Ideen in die Praxis umsetze und unterrichte, sehe ich einige wesentliche Unterschiede, die ich berücksichtigen muss. Erstens fordert die Bayes'sche Vorhersagemodellierung den Analysten auf, …

2
Funktioniert der Caret Train für glmnet für Alpha und Lambda?
Kann das R- caretPaket sowohl für das Modell alphaals auch lambdafür das glmnetModell eine Kreuzvalidierung durchführen? Diesen Code ausführen, eGrid <- expand.grid(.alpha = (1:10) * 0.1, .lambda = (1:10) * 0.1) Control <- trainControl(method = "repeatedcv",repeats = 3,verboseIter =TRUE) netFit <- train(x =train_features, y = y_train, method = "glmnet", tuneGrid …

1
k-fach Kreuzvalidierung des Ensemble-Lernens
Ich bin verwirrt darüber, wie die Daten für die k-fache Kreuzvalidierung des Ensemble-Lernens aufgeteilt werden sollen. Angenommen, ich habe einen Lernrahmen für die Klassifizierung von Ensembles. Meine erste Ebene enthält die Klassifizierungsmodelle, z. B. SVM, Entscheidungsbäume. Meine zweite Ebene enthält ein Abstimmungsmodell, das die Vorhersagen aus der ersten Ebene kombiniert …

1
Vorteile der geschichteten vs zufälligen Stichprobe für die Erzeugung von Trainingsdaten in der Klassifizierung
Ich würde gerne wissen, ob die Verwendung geschichteter Stichproben anstelle von Zufallsstichproben einige Vorteile hat, wenn der ursprüngliche Datensatz in Trainings- und Testsätze für die Klassifizierung aufgeteilt wird. Bringt geschichtete Stichprobe mehr Verzerrung in den Klassifikator als zufällige Stichprobe? Die Anwendung, für die ich eine geschichtete Stichprobe zur Datenaufbereitung verwenden …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.