Als «resampling» getaggte Fragen

Beim Resampling wird eine Probe aus einer Probe entnommen. Häufige Verwendungszwecke sind Jackknifing (Entnahme einer Teilstichprobe, z. B. alle Werte außer 1) und Bootstrapping (Abtastung mit Ersatz). Diese Techniken können eine robuste Schätzung einer Stichprobenverteilung liefern, wenn es schwierig oder unmöglich wäre, sie analytisch abzuleiten.

2
Resampling- / Simulationsmethoden: Monte Carlo, Bootstrapping, Jackknifing, Kreuzvalidierung, Randomisierungstests und Permutationstests
Ich versuche den Unterschied zwischen verschiedenen Resampling-Methoden (Monte-Carlo-Simulation, parametrisches Bootstrapping, nicht-parametrisches Bootstrapping, Jackknifing, Kreuzvalidierung, Randomisierungstests und Permutationstests) und deren Implementierung in meinem eigenen Kontext mithilfe von R zu verstehen. Angenommen, ich habe die folgende Situation: Ich möchte eine ANOVA mit einer Y- Variablen ( Yvar) und einer X- Variablen ( …

5
Können Sie maschinelles Lernen mit CV / Bootstrap trainieren?
Diese Frage mag zu offen sein, um eine endgültige Antwort zu erhalten, aber hoffentlich nicht. Algorithmen für maschinelles Lernen, wie SVM, GBM, Random Forest usw., haben im Allgemeinen einige freie Parameter, die über eine Faustregel hinaus auf jeden Datensatz abgestimmt werden müssen. Dies wird im Allgemeinen mit einer Art Neuabtastungstechnik …


2
Warum geschichtete Kreuzvalidierung verwenden? Warum schadet dies nicht der Varianz?
Mir wurde gesagt, dass es von Vorteil ist, eine geschichtete Kreuzvalidierung zu verwenden, insbesondere wenn die Antwortklassen nicht ausgeglichen sind. Wenn ein Zweck der Kreuzvalidierung darin besteht, die Zufälligkeit unserer ursprünglichen Trainingsdatenstichprobe zu berücksichtigen, würde es sicher dagegen wirken, wenn Sie für jede Falte die gleiche Klassenverteilung festlegen, es sei …

2
Was sind die Annahmen des Permutationstests?
Es wird oft behauptet, dass Permutationstests keine Annahmen haben, aber dies ist sicherlich nicht wahr. Wenn zum Beispiel meine Proben irgendwie korreliert sind, kann ich mir vorstellen, dass es nicht richtig wäre, ihre Etiketten zu vertauschen. Ich denke nur, dass ich zu diesem Problem den folgenden Satz aus Wikipedia gefunden …

2
Caret-Methoden zur erneuten Probenahme
Ich benutze die Bibliothek caretin R, um verschiedene Modellierungsverfahren zu testen. Das trainControlObjekt erlaubt es, eine Neuabtastungsmethode anzugeben. Die Verfahren werden in der beschriebenen Dokumentation Abschnitt 2.3 und beinhalten: boot, boot632, cv, LOOCV, LGOCV, repeatedcvund oob. Obwohl einige davon leicht abzuleiten sind, sind nicht alle dieser Methoden klar definiert. Welche …
20 r  resampling  caret 

2
Testen der Klassifizierung von überabgetasteten Ungleichgewichtsdaten
Ich arbeite an stark unausgeglichenen Daten. In der Literatur werden verschiedene Methoden verwendet, um die Daten durch erneutes Abtasten (Über- oder Unterabtasten) neu abzugleichen. Zwei gute Ansätze sind: SMOTE: Synthetic Minority-Überabtastung ( SMOTE ) ADASYN: Adaptiver Ansatz zur synthetischen Probenahme für unausgewogenes Lernen ( ADASYN ) Ich habe ADASYN implementiert, …

2
Test auf IID-Probenahme
Wie würden Sie testen oder überprüfen, ob die Probenahme IID (Independent and Identically Distributed) ist? Beachten Sie, dass ich nicht Gaußsch und identisch verteilt meine, sondern nur IID. Und mir fällt die Idee ein, die Stichprobe wiederholt in zwei gleich große Teilstichproben aufzuteilen, den Kolmogorov-Smirnov-Test durchzuführen und zu überprüfen, ob …



1
Ist diese Methode zur Neuabtastung von Zeitreihen in der Literatur bekannt? Hat es einen Namen?
Ich habe kürzlich nach Möglichkeiten gesucht, Zeitreihen auf diese Weise neu abzutasten Erhalten Sie ungefähr die Autokorrelation langer Speicherprozesse. Behalten Sie den Bereich der Beobachtungen bei (zum Beispiel ist eine neu abgetastete Zeitserie von ganzen Zahlen immer noch eine Zeitserie von ganzen Zahlen). Kann bei Bedarf nur einige Skalen betreffen. …


1
Ist eine Zentrierung beim Bootstrapping des Sample-Mittels erforderlich?
Beim Lesen, wie man die Verteilung des Stichprobenmittelwerts approximiert, bin ich auf die nichtparametrische Bootstrap-Methode gestoßen. Anscheinend kann man die Verteilung von durch die Verteilung von , wobei den Stichprobenmittelwert von bezeichnet das Bootstrap-Beispiel.X¯n−μX¯n−μ\bar{X}_n-\muX¯∗n−X¯nX¯n∗−X¯n\bar{X}_n^*-\bar{X}_nX¯∗nX¯n∗\bar{X}_n^* Meine Frage ist dann: Brauche ich die Zentrierung? Wozu? Konnte ich nicht einfach durch approximieren ?P(X¯n≤x)P(X¯n≤x)\mathbb{P}\left(\bar{X}_n …


5
Wie führt man eine Imputation von Werten in einer sehr großen Anzahl von Datenpunkten durch?
Ich habe einen sehr großen Datensatz und es fehlen ungefähr 5% zufällige Werte. Diese Variablen sind miteinander korreliert. Der folgende Beispiel-R-Datensatz ist nur ein Spielzeugbeispiel mit Dummy-korrelierten Daten. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.