Als «stratification» getaggte Fragen

Eine Stichprobentechnik, bei der die interessierende Population in Teilmengen ("Schichten") aufgeteilt wird, basierend auf Merkmalen, die vor der Stichprobe in allen Einheiten bekannt sind.

3
Verständnis der geschichteten Kreuzvalidierung
Was ist der Unterschied zwischen geschichteter Kreuzvalidierung und Kreuzvalidierung ? Wikipedia sagt: Bei der geschichteten k-fach Kreuzvalidierung werden die Falten so ausgewählt, dass der mittlere Antwortwert in allen Falten ungefähr gleich ist. Bei einer dichotomen Klassifizierung bedeutet dies, dass jede Falte ungefähr die gleichen Anteile der beiden Arten von Klassenbezeichnungen …

2
Warum geschichtete Kreuzvalidierung verwenden? Warum schadet dies nicht der Varianz?
Mir wurde gesagt, dass es von Vorteil ist, eine geschichtete Kreuzvalidierung zu verwenden, insbesondere wenn die Antwortklassen nicht ausgeglichen sind. Wenn ein Zweck der Kreuzvalidierung darin besteht, die Zufälligkeit unserer ursprünglichen Trainingsdatenstichprobe zu berücksichtigen, würde es sicher dagegen wirken, wenn Sie für jede Falte die gleiche Klassenverteilung festlegen, es sei …

1
Vorteile der geschichteten vs zufälligen Stichprobe für die Erzeugung von Trainingsdaten in der Klassifizierung
Ich würde gerne wissen, ob die Verwendung geschichteter Stichproben anstelle von Zufallsstichproben einige Vorteile hat, wenn der ursprüngliche Datensatz in Trainings- und Testsätze für die Klassifizierung aufgeteilt wird. Bringt geschichtete Stichprobe mehr Verzerrung in den Klassifikator als zufällige Stichprobe? Die Anwendung, für die ich eine geschichtete Stichprobe zur Datenaufbereitung verwenden …

1
Unterscheidet sich die Anpassung des Cox-Modells mit Schichten- und Schicht-Kovariaten-Interaktion von der Anpassung zweier Cox-Modelle?
In Regressionsmodellierungsstrategien von Harrell (zweite Ausgabe) wird in Abschnitt (S. 20.1.7) auf Cox-Modelle eingegangen, einschließlich einer Wechselwirkung zwischen einer Kovariate, deren Haupteffekt auf das Überleben ebenfalls geschätzt werden soll (Alter im folgenden Beispiel), und a Kovariate, deren Haupteffekt wir nicht einschätzen wollen (Geschlecht im Beispiel unten). Konkret: Nehmen wir an, …



2
Stichprobe mit Ersatz in R randomForest
Die randomForest-Implementierung erlaubt keine Stichproben über die Anzahl der Beobachtungen hinaus, selbst wenn Stichproben mit Ersatz erstellt werden. Warum ist das? Funktioniert gut: rf <- randomForest(Species ~ ., iris, sampsize=c(1, 1, 1), replace=TRUE) rf <- randomForest(Species ~ ., iris, sampsize=3, replace=TRUE) Was ich machen will; was ich vorhabe zu tun: …


1
Warum haben Anova () und drop1 () unterschiedliche Antworten für GLMMs geliefert?
Ich habe ein GLMM der Form: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Wenn ich benutze drop1(model, test="Chi"), erhalte ich andere Ergebnisse als wenn ich Anova(model, type="III")aus dem Autopaket oder benutze summary(model). Diese beiden letzteren geben die gleichen Antworten. Unter Verwendung einer Reihe …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
Entfernen Sie Duplikate aus dem Trainingssatz zur Klassifizierung
Nehmen wir an, ich habe eine Reihe von Zeilen für ein Klassifizierungsproblem: X1,...XN,YX1,...XN,YX_1, ... X_N, Y Wobei die Merkmale / Prädiktoren sind und die Klasse ist, zu der die Merkmalskombination der Zeile gehört.X1,...,XNX1,...,XNX_1, ..., X_NYYY Viele Feature-Kombinationen und ihre Klassen werden im Datensatz wiederholt, den ich zum Anpassen eines Klassifikators …

3
Finden Sie die Verteilung und transformieren Sie sie in die Normalverteilung
Ich habe Daten, die beschreiben, wie oft ein Ereignis während einer Stunde stattfindet ("Anzahl pro Stunde", nph) und wie lange die Ereignisse dauern ("Dauer in Sekunden pro Stunde", dph). Dies sind die Originaldaten: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, …
8 normal-distribution  data-transformation  logistic  generalized-linear-model  ridge-regression  t-test  wilcoxon-signed-rank  paired-data  naive-bayes  distributions  logistic  goodness-of-fit  time-series  eviews  ecm  panel-data  reliability  psychometrics  validity  cronbachs-alpha  self-study  random-variable  expected-value  median  regression  self-study  multiple-regression  linear-model  forecasting  prediction-interval  normal-distribution  excel  bayesian  multivariate-analysis  modeling  predictive-models  canonical-correlation  rbm  time-series  machine-learning  neural-networks  fishers-exact  factorisation-theorem  svm  prediction  linear  reinforcement-learning  cdf  probability-inequalities  ecdf  time-series  kalman-filter  state-space-models  dynamic-regression  index-decomposition  sampling  stratification  cluster-sample  survey-sampling  distributions  maximum-likelihood  gamma-distribution 
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.