Als «cross-validation» getaggte Fragen

Wiederholtes Zurückhalten von Teilmengen der Daten während der Modellanpassung, um die Modellleistung für die Teilmengen der zurückgehaltenen Daten zu quantifizieren.


2
AUC in der ordinalen logistischen Regression
Ich verwende zwei Arten der logistischen Regression - eine ist die einfache Art für die binäre Klassifizierung und die andere ist die ordinale logistische Regression. Zur Berechnung der Genauigkeit der ersten habe ich eine Kreuzvalidierung verwendet, bei der ich die AUC für jede Falte berechnet und dann die mittlere AUC …

2
Kreuzvalidierung für gemischte Modelle?
Mein Kollege und ich passen eine Reihe von linearen und nichtlinearen Mischeffektmodellen in R an. Wir werden gebeten, eine Kreuzvalidierung der angepassten Modelle durchzuführen, damit überprüft werden kann, ob die beobachteten Effekte relativ verallgemeinerbar sind. Dies ist normalerweise eine triviale Aufgabe, aber in unserem Fall müssen wir die gesamten Daten …

2
Wie wendet man eine Kreuzvalidierung im Kontext der Auswahl von Lernparametern für Support-Vektor-Maschinen angemessen an?
Das wunderbare libsvm-Paket bietet eine Python-Oberfläche und eine Datei "easy.py", die automatisch nach Lernparametern (Kosten & Gamma) sucht, die die Genauigkeit des Klassifikators maximieren. Innerhalb eines bestimmten Kandidatensatzes von Lernparametern wird die Genauigkeit durch Kreuzvalidierung operationalisiert, aber ich denke, dies untergräbt den Zweck der Kreuzvalidierung. Das heißt, sofern die Lernparameter …


2
Berechnen Sie die ROC-Kurve für Daten
Ich habe also 16 Studien, in denen ich versuche, eine Person anhand eines biometrischen Merkmals mithilfe von Hamming Distance zu authentifizieren. Mein Schwellenwert ist auf 3,5 eingestellt. Meine Daten sind unten und nur Versuch 1 ist ein wahres Positiv: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 



2
Optimieren Sie SVM, um falsch negative Ergebnisse bei der binären Klassifizierung zu vermeiden
Ich trainiere einen binären SVM-Klassifikator mit Scikit Learn. Aufgrund der Art meines Problems muss ich falsche Negative vermeiden. Da nichts umsonst ist, kann ich eine höhere Rate an falsch positiven Ergebnissen erzielen, um die Anzahl der falsch negativen Ergebnisse zu verringern. Wie können wir das machen (idealerweise mit Scikit lernen)? …

1
Techniken zur Erkennung von Überanpassungen
Ich hatte ein Vorstellungsgespräch für eine Stelle in Data Science. Während des Interviews wurde ich gefragt, was ich tun soll, um sicherzustellen, dass das Modell nicht überpasst. Meine erste Antwort war die Verwendung einer Kreuzvalidierung, um die Leistung des Modells zu bewerten. Der Interviewer sagte jedoch, dass selbst eine Kreuzvalidierung …

2
Trainingsdaten sind unausgewogen - aber sollte mein Validierungssatz auch sein?
Ich habe Daten beschriftet, die aus 10000 positiven und 50000 negativen Beispielen bestehen, was insgesamt 60000 Beispiele ergibt. Offensichtlich sind diese Daten unausgewogen. Nehmen wir nun an, ich möchte meinen Validierungssatz erstellen und dazu 10% meiner Daten verwenden. Meine Frage lautet wie folgt: Sollte ich sicherstellen, dass mein Validierungssatz AUCH …

2
Bonferroni Korrektur & maschinelles Lernen
In psychologischen Studien habe ich gelernt, dass wir die Bonferroni-Methode verwenden sollten, um das Signifikanzniveau anzupassen, wenn wir mehrere Hypothesen an einem einzigen Datensatz testen. Derzeit arbeite ich mit Methoden des maschinellen Lernens wie Support Vector Machines oder Random Forest zur Klassifizierung. Hier habe ich einen einzelnen Datensatz, der bei …



2
PRESS-Statistik für die Ridge-Regression
In gewöhnlichen kleinsten Quadraten, die einen Zielvektor gegen einen Satz von Prädiktoren zurückführen , wird die Hutmatrix als berechnetyyyX.X.X H.= X.( X.tX.)- 1X.tH.=X.(X.tX.)- -1X.tH = X (X^tX)^{-1} X^t und die PRESSE (vorhergesagte verbleibende Quadratsumme) wird berechnet durch S.S.P.= ∑ich( eich1 - hi i)2S.S.P.=∑ich(eich1- -hichich)2SS_P = \sum_i \left( \frac{e_i}{1-h_{ii}}\right)^2 wobei der …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.