Ich habe kürzlich Bootstrapping verwendet, um die Konfidenzintervalle für ein Projekt zu schätzen. Jemand, der nicht viel über Statistiken weiß, hat mich kürzlich gebeten zu erklären, warum das Bootstrapping funktioniert, dh warum es immer wieder zu guten Ergebnissen führt, wenn dieselbe Stichprobe erneut abgetastet wird. Mir wurde klar, dass ich, …
Hier verweist @gung auf die Regel .632+. Eine schnelle Google-Suche liefert keine leicht verständliche Antwort darauf, was diese Regel bedeutet und für welchen Zweck sie verwendet wird. Würde jemand bitte die .632+ -Regel erläutern?
Ich möchte, dass Ihre Gedanken zu den Unterschieden zwischen Kreuzvalidierung und Bootstrapping den Vorhersagefehler abschätzen. Funktioniert man besser für kleine Datenmengen oder große Datenmengen?
Angenommen, ich habe einen Satz von Beispieldaten aus einer unbekannten oder komplexen Verteilung und möchte einen Rückschluss auf eine Statistik der Daten ziehen. Meine Standardeinstellung besteht darin, nur eine Reihe von Bootstrap-Beispielen mit Ersetzung zu generieren und meine Statistik für jedes Bootstrap-Beispiel zu berechnen , um eine geschätzte Verteilung für …
Ich beginne mit der Verwendung von dabble glmnetmit LASSO Regression , wo mein Ergebnis von Interesse dichotomous ist. Ich habe unten einen kleinen nachgebildeten Datenrahmen erstellt: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- …
Ich versuche den Unterschied zwischen verschiedenen Resampling-Methoden (Monte-Carlo-Simulation, parametrisches Bootstrapping, nicht-parametrisches Bootstrapping, Jackknifing, Kreuzvalidierung, Randomisierungstests und Permutationstests) und deren Implementierung in meinem eigenen Kontext mithilfe von R zu verstehen. Angenommen, ich habe die folgende Situation: Ich möchte eine ANOVA mit einer Y- Variablen ( Yvar) und einer X- Variablen ( …
Diese Frage wurde durch etwas ausgelöst, das ich in diesem Statistiklehrbuch für Hochschulabsolventen gelesen und (unabhängig) während dieser Präsentation auf einem statistischen Seminar gehört habe. In beiden Fällen lautete die Aussage wie folgt: "Da die Stichprobengröße ziemlich klein ist, haben wir beschlossen, die Schätzung über Bootstrap anstelle (oder zusammen mit) …
Ich schätze die Nützlichkeit des Bootstraps bei der Ermittlung von Unsicherheitsschätzungen, aber eine Sache, die mich immer gestört hat, ist, dass die Verteilung, die diesen Schätzungen entspricht, die von der Stichprobe definierte Verteilung ist. Im Allgemeinen scheint es eine schlechte Idee zu sein, zu glauben, dass unsere Stichprobenhäufigkeiten genau der …
Sowohl Bootstrap- als auch Jackknife-Methoden können verwendet werden, um die Abweichung und den Standardfehler einer Schätzung abzuschätzen, und die Mechanismen beider Resampling-Methoden sind nicht sehr unterschiedlich: Stichprobenerfassung mit Ersetzung vs. Allerdings ist Jackknife in Forschung und Praxis nicht so beliebt wie Bootstrap. Gibt es einen offensichtlichen Vorteil bei der Verwendung …
Ich frage mich, ob es einen Unterschied in der Interpretation macht, ob nur die abhängigen, sowohl die abhängigen als auch die unabhängigen Variablen oder nur die unabhängigen Variablen log-transformiert werden. Betrachten Sie den Fall von log(DV) = Intercept + B1*IV + Error Ich kann die IV als prozentuale Erhöhung interpretieren, …
Ok, das ist eine Frage, die mich nachts wach hält. Kann die Bootstrap-Prozedur so interpretiert werden, dass sie einer Bayes'schen Prozedur nahekommt (mit Ausnahme der Bayes'schen Bootstrap-Prozedur)? Mir gefällt die bayesianische "Interpretation" von Statistiken sehr gut, die ich für kohärent und leicht verständlich halte. Ich habe jedoch auch eine Schwäche …
Ich habe über die Behauptung ausgeführt , dass jede Bootstrap Probe (oder eingetütet Baum) im Durchschnitt enthält etwa 2/32/32/3 der Beobachtungen. Ich verstehe , dass die Wahrscheinlichkeit , sich in keiner der ausgewählt ist nnn von zieht nnn Proben mit Ersatz ist (1−1/n)n(1−1/n)n(1- 1/n)^n , die etwa ausarbeitet 1/31/31/3 Chance, …
Ich bin daran interessiert, die Anzahl signifikanter Muster zu bestimmen, die aus einer Hauptkomponentenanalyse (PCA) oder einer empirischen Orthogonalfunktionsanalyse (EOF) hervorgehen. Ich bin besonders daran interessiert, diese Methode auf Klimadaten anzuwenden. Das Datenfeld ist eine MxN-Matrix, wobei M die Zeitdimension (z. B. Tage) und N die räumliche Dimension (z. B. …
Ich frage mich, ob jemand allgemeine Faustregeln in Bezug auf die Anzahl der zu verwendenden Bootstrap-Beispiele kennt, basierend auf den Merkmalen der Daten (Anzahl der Beobachtungen usw.) und / oder den enthaltenen Variablen.
Ich habe auf dieser Website zahlreiche Fragen zu Bootstrapping und Konfidenzintervallen geprüft, bin aber immer noch verwirrt. Ein Grund für meine Verwirrung ist wahrscheinlich, dass ich in meinen statistischen Kenntnissen nicht weit genug fortgeschritten bin, um viele der Antworten zu verstehen. Ich bin ungefähr in der Mitte eines Statistik-Einführungskurses und …
Es gibt verschiedene gängige Resampling-Techniken, die in der Praxis häufig verwendet werden, z. B. Bootstrapping, Permutationstest, Jackknife usw. In zahlreichen Artikeln und Büchern werden diese Techniken erläutert, z. B. Philip I Good (2010) Permutation, Parametric und Bootstrap Tests von Hypothesen Meine Frage ist, welche Resampling-Technik hat an Popularität gewonnen und …
Diese Frage mag zu offen sein, um eine endgültige Antwort zu erhalten, aber hoffentlich nicht. Algorithmen für maschinelles Lernen, wie SVM, GBM, Random Forest usw., haben im Allgemeinen einige freie Parameter, die über eine Faustregel hinaus auf jeden Datensatz abgestimmt werden müssen. Dies wird im Allgemeinen mit einer Art Neuabtastungstechnik …
In einigen Quellen, einschließlich dieser , habe ich gelesen , dass Random Forests unempfindlich gegenüber Ausreißern sind (wie es beispielsweise bei Logistic Regression und anderen ML-Methoden der Fall ist). Zwei Teile der Intuition sagen mir jedoch etwas anderes: Bei jeder Erstellung eines Entscheidungsbaums müssen alle Punkte klassifiziert werden. Dies bedeutet, …
Ich weiß, dass dies ein ziemlich heißes Thema ist, auf das niemand wirklich eine einfache Antwort geben kann. Trotzdem frage ich mich, ob der folgende Ansatz nicht sinnvoll sein könnte. Die Bootstrap-Methode ist nur dann nützlich, wenn Ihr Beispiel mehr oder weniger der gleichen Verteilung wie die ursprüngliche Grundgesamtheit entspricht …
Ich habe kürzlich gelernt, Bootstrapping-Techniken zu verwenden, um Standardfehler und Konfidenzintervalle für Schätzer zu berechnen. Was ich gelernt habe war, dass wenn die Daten IID sind, Sie die Probendaten als Grundgesamtheit behandeln und eine Stichprobenerhebung mit Ersatz durchführen können. Auf diese Weise können Sie mehrere Simulationen einer Teststatistik erhalten. Bei …
In den MIT OpenCourseWare-Hinweisen für 18.05 Introduction to Probability and Statistics, Spring 2014 (derzeit hier verfügbar ) heißt es: Die Bootstrap-Perzentil-Methode überzeugt durch ihre Einfachheit. Dies hängt jedoch von der Bootstrap-Verteilung von ab, wobei eine bestimmte Stichprobe eine gute Annäherung an die tatsächliche Verteilung von . Rice sagt über die …
Es wird oft behauptet, dass Bootstrapping eine Schätzung der Abweichung in einem Schätzer liefern kann. Wenn die Schätzung für eine Statistik ist und die Bootstrap-Repliken sind (mit ), dann ist die Bootstrap-Schätzung der Verzerrung was extrem einfach und mächtig erscheint, bis es beunruhigend ist. ~ t ii∈{1,⋯,N}biast≈1t^t^\hat tt~it~i\tilde t_ii∈{1,⋯,N}i∈{1,⋯,N}i\in\{1,\cdots,N\}biast≈1N∑it~i−t^biast≈1N∑it~i−t^\begin{equation} \mathrm{bias}_t …
Stark verzerrte Verteilungen wie die Protokollnormale führen nicht zu genauen Bootstrap-Konfidenzintervallen. Hier ist ein Beispiel, das zeigt, dass der linke und der rechte Heckbereich weit vom idealen Wert von 0,025 entfernt sind, unabhängig davon, welche Bootstrap-Methode Sie in R versuchen: require(boot) n <- 25 B <- 1000 nsim <- 1000 …
Ich habe ein Manuskript über eine Bootstrap-Methode zum Testen von Hypothesen von einem Mittelwert, und ich möchte es zur Veröffentlichung senden, aber ich habe ein moralisches Dilemma. Ich habe mich dem Protest gegen Elsevier wegen ihrer unethischen Geschäftspraktiken angeschlossen, und das Nachlesen des gesamten Themas hat mich wirklich dazu veranlasst, …
Nachdem ich kürzlich Bootstrap studiert hatte, stellte ich mir eine konzeptionelle Frage, die mich immer noch verwirrt: Sie haben eine Population und möchten ein Populationsattribut kennen, dh , wobei ich P verwende, um die Population darzustellen. Dies θ könnte beispielsweise ein Populationsmittelwert sein. Normalerweise können Sie nicht alle Daten aus …
Wenn ein Parameter gebootet wird, um den Standardfehler zu erhalten, erhalten wir eine Verteilung des Parameters. Warum verwenden wir nicht den Mittelwert dieser Verteilung als Ergebnis oder Schätzung für den Parameter, den wir erhalten möchten? Sollte sich die Verteilung nicht der tatsächlichen annähern? Daher würden wir eine gute Schätzung des …
Ich wollte eine Klassendemonstration durchführen, bei der ich ein t-Intervall mit einem Bootstrap-Intervall vergleiche und die Überdeckungswahrscheinlichkeit für beide berechne. Ich wollte, dass die Daten aus einer verzerrten Verteilung stammen, also habe ich mich dafür entschieden, die Daten als exp(rnorm(10, 0, 2)) + 1eine Stichprobe der Größe 10 aus einem …
Gibt es eine Bootstrap-Technik, mit der Vorhersageintervalle für Punktvorhersagen berechnet werden können, die z. B. aus einer linearen Regression oder einer anderen Regressionsmethode (k-nächster Nachbar, Regressionsbäume usw.) stammen? Irgendwie habe ich das Gefühl, dass die manchmal vorgeschlagene Methode, die Punktvorhersage nur zu booten (siehe z. B. Vorhersageintervalle für die kNN-Regression …
Ich benutze das "boot" -Paket, um einen ungefähren 2-seitigen Bootstrap-P-Wert zu berechnen, aber das Ergebnis ist zu weit vom P-Wert entfernt, als dass man t.test verwenden könnte. Ich kann nicht herausfinden, was ich in meinem R-Code falsch gemacht habe. Kann mir bitte jemand einen Hinweis dazu geben time = c(14,18,11,13,18,17,21,9,16,17,14,15, …
Wenn ich GAM verwende, erhalte ich einen DF-Rest von (letzte Zeile im Code). Was bedeutet das? Über das GAM-Beispiel hinausgehend: Kann die Anzahl der Freiheitsgrade im Allgemeinen eine nicht ganzzahlige Zahl sein?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.