Als «cross-validation» getaggte Fragen

Wiederholtes Zurückhalten von Teilmengen der Daten während der Modellanpassung, um die Modellleistung für die Teilmengen der zurückgehaltenen Daten zu quantifizieren.

1
Vergleich der Verteilungen der Generalisierungsleistung
Angenommen, ich habe zwei Lernmethoden für ein Klassifizierungsproblem , und , und ich schätze ihre Generalisierungsleistung mit etwas wie wiederholter Kreuzvalidierung oder Bootstrapping. Durch diesen Prozess erhalte ich eine Verteilung der Bewertungen und für jede Methode über diese Wiederholungen (z. B. die Verteilung der ROC-AUC-Werte für jedes Modell).AAABBB PAPAP_APBPBP_B Wenn …

1
Wie baue ich einen innovativen Ausreißer bei Beobachtung 48 in mein ARIMA-Modell ein?
Ich arbeite an einem Datensatz. Nachdem ich einige Modellidentifikationstechniken angewendet hatte, kam ich mit einem ARIMA (0,2,1) -Modell heraus. Ich habe die detectIOFunktion im Paket TSAin R verwendet, um bei der 48. Beobachtung meines ursprünglichen Datensatzes einen innovativen Ausreißer (IO) zu erkennen . Wie kann ich diesen Ausreißer in mein …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 


1
Warum haben Anova () und drop1 () unterschiedliche Antworten für GLMMs geliefert?
Ich habe ein GLMM der Form: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Wenn ich benutze drop1(model, test="Chi"), erhalte ich andere Ergebnisse als wenn ich Anova(model, type="III")aus dem Autopaket oder benutze summary(model). Diese beiden letzteren geben die gleichen Antworten. Unter Verwendung einer Reihe …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 


4
Gibt es eine Möglichkeit, die Kreuzvalidierung zu verwenden, um eine Variablen- / Merkmalsauswahl in R durchzuführen?
Ich habe einen Datensatz mit ungefähr 70 Variablen, die ich reduzieren möchte. Ich möchte den Lebenslauf verwenden, um die nützlichsten Variablen auf folgende Weise zu finden. 1) Wählen Sie zufällig etwa 20 Variablen aus. 2) Verwenden Sie stepwise/ LASSO/ lars/ etc, um die wichtigsten Variablen auszuwählen. 3) Wiederholen Sie ~ …



2
Implementierung einer verschachtelten Kreuzvalidierung
Ich versuche herauszufinden, ob mein Verständnis der verschachtelten Kreuzvalidierung korrekt ist. Deshalb habe ich dieses Spielzeugbeispiel geschrieben, um zu sehen, ob ich Recht habe: import operator import numpy as np from sklearn import cross_validation from sklearn import ensemble from sklearn.datasets import load_boston # set random state state = 1 # …

4
Zeitdiskretes Ereignisverlaufsmodell (Überlebensmodell) in R.
Ich versuche, ein zeitdiskretes Modell in R einzubauen, bin mir aber nicht sicher, wie ich das machen soll. Ich habe gelesen, dass Sie die abhängige Variable in verschiedenen Zeilen organisieren können, eine für jede glmZeitbeobachtung , und die Funktion mit einem Logit- oder Cloglog-Link verwenden können. In diesem Sinne, ich …
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

2
GAM-Kreuzvalidierung zum Testen des Vorhersagefehlers
Meine Fragen beziehen sich auf GAMs im mgcv R-Paket. Aufgrund einer kleinen Stichprobengröße möchte ich den Vorhersagefehler mithilfe einer einmaligen Kreuzvalidierung ermitteln. Ist das vernünftig? Gibt es ein Paket oder einen Code, wie ich das machen kann? Die errorest()Funktion im ipred- Paket funktioniert nicht. Ein einfacher Testdatensatz ist: library(mgcv) set.seed(0) …
10 r  cross-validation  gam  mgcv 

1
Berechnung von Vorhersageintervallen bei Verwendung der Kreuzvalidierung
Werden Standardabweichungsschätzungen berechnet über: sN=1N∑Ni=1(xi−x¯¯¯)2−−−−−−−−−−−−−√.sN=1N∑i=1N(xi−x¯)2. s_N = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2}. ( http://en.wikipedia.org/wiki/Standard_deviation#Sample_standard_deviation ) für Vorhersagegenauigkeiten, die aus einer 10-fachen Kreuzvalidierung entnommen wurden? Ich bin besorgt, dass die zwischen jeder Falte berechnete Vorhersagegenauigkeit aufgrund der erheblichen Überlappung zwischen Trainingssätzen abhängig ist (obwohl die Vorhersagesätze unabhängig sind). Alle Ressourcen, die …

2
Wie simuliere ich multivariate Ergebnisse in R?
In den meisten Situationen beschäftigen wir uns nur mit einer Ergebnis- / Antwortvariablen wie . In einigen Szenarien, insbesondere in den klinischen Daten, können die Ergebnisvariablen jedoch hochdimensional / multivariat sein. Beispiel: , wobei die , und enthält und diese Ergebnisse alle korreliert sind. Wenn die Behandlung darstellt (Ja / …

1
Wie generieren Sie ROC-Kurven für eine einmalige Kreuzvalidierung?
Bei der Durchführung einer 5-fachen Kreuzvalidierung (zum Beispiel) ist es typisch, eine separate ROC-Kurve für jede der 5-fachen und häufig eine mittlere ROC-Kurve mit Standard zu berechnen. dev. als Kurvendicke dargestellt. Für die LOO-Kreuzvalidierung, bei der nur ein einziger Testdatenpunkt in jeder Falte vorhanden ist, erscheint es jedoch nicht sinnvoll, …

2
Endgültiges Modell aus der Kreuzvalidierung von Zeitreihen
Ich habe bereits Erfahrungen mit der "normalen" K-fachen Kreuzvalidierung für die Modelloptimierung gesammelt und bin durch die Anwendung in Zeitreihenmodellen leicht verwirrt. Nach meinem Verständnis ist die Folge für die Kreuzvalidierung für Zeitreihenmodelle das von Hyndman beschriebene Verfahren des "Rolling Forward Origin" . Dies ist für mich sehr sinnvoll und …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.