Statistiken und Big Data bootstrap

1

Wann / warum unterscheidet sich die zentrale Tendenz einer Resampling-Simulation deutlich vom beobachteten Wert?

Sollte man immer erwarten, dass die zentrale Tendenz (dh der Mittelwert und / oder der Median) einer Bootstrap-Probe dem beobachteten Wert ähnlich ist? In diesem speziellen Fall habe ich Antworten, die für Probanden unter zwei Bedingungen exponentiell verteilt sind (ich habe das Experiment nicht durchgeführt, ich habe nur die Daten). …

8 bootstrap simulation effect-size cohens-d

1

Wie hat sich Efron den Bootstrap vorgestellt?

Kennen Sie Bradley Efron ? Er ist ein großartiger Mann. Wie hat sich Efron zum ersten Mal "Bootstrap" vorgestellt oder darüber nachgedacht?

8 bootstrap history

2

Warum würde ein statistisches Modell bei einem riesigen Datensatz überanpassen?

Für mein aktuelles Projekt muss ich möglicherweise ein Modell erstellen, um das Verhalten einer bestimmten Personengruppe vorherzusagen. Der Trainingsdatensatz enthält nur 6 Variablen (ID dient nur zu Identifikationszwecken): id, age, income, gender, job category, monthly spend in dem monthly spendist die Antwortvariable. Der Trainingsdatensatz enthält jedoch ungefähr 3 Millionen Zeilen, …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

1

Sollte das Beschneiden beim Absacken (mit Entscheidungsbäumen) vermieden werden?

Ich kam durch mehrere Posts und Papiere, in denen behauptet wurde, dass das Beschneiden von Bäumen in einem "Absack" -Baumensemble nicht erforderlich ist (siehe 1 ). Ist es jedoch notwendigerweise (oder zumindest in einigen bekannten Fällen) schädlich, die einzelnen Bäume in einem Ensemble zu beschneiden (z. B. mit der OOB-Probe)? …

8 bootstrap cart bagging

1

Welche Methode simuliert p-Werte aus der erneuten Abtastung aus den Daten?

Vor einiger Zeit stellte ich eine Frage zu Korrelationszeiten zwischen Zeitstempeln und erhielt eine Antwort von Peter Ellis, dass ich mittlere Entfernungen zwischen Codes berechnen könnte ... Dies gibt Ihnen bereits einen Eindruck davon, welche Verhaltensweisen zusammengefasst sind, aber Sie sollten auch überprüfen, ob dies nicht nur zufällig plausibel ist. …

8 bootstrap monte-carlo resampling quasi-monte-carlo

1

Berechnen Sie den p-Wert im gepaarten Bootstrap

Ich bin auf ein neues Papier der Berkeley NLP-Gruppe über statistische Tests gestoßen, eine empirische Untersuchung der statistischen Signifikanz in NLP . Es gibt einen Pseudocode zum Berechnen eines p-Werts in der Arbeit. Grundsätzlich besteht die Idee darin, dass der Abtastsatz von x1,x2,...,xNx1,x2,...,xNx_1,x_2,...,x_N werden mit Ersetzung aus Daten abgetastet . …

8 hypothesis-testing bootstrap p-value

2

Bootstrap vs numerische Integration

Mein Verständnis des Bootstrap-Ansatzes basiert auf Wassermans Framework (fast wörtlich): Sei eine Statistik ( ist die aus der Verteilung gezogene iid-Stichprobe ). Angenommen , wir schätzen möchten - die Varianz der gegeben .X i F V F ( T n ) T n FT.n= g( X.1, . . . , …

8 bootstrap computational-statistics

2

Empfohlene Lektüre, um zu verstehen, wann der Bootstrap fehlschlägt?

Es ist bekannt, dass der Bootstrap fehlschlagen kann. Ich habe in Abschnitt 6 von Bickel und Freedman (1981) gelesen, dass der Bootstrap fehlschlägt, wenn Sie ihn zur Bewertung des MLE zur Schätzung des Parameters einer kontinuierlichen Gleichverteilung verwenden möchten. Ich habe Abschnitt 7.4 des Buches von Efron und Tibshirani gelesen, …

8 bootstrap references

1

Bootstrapping mit einer kleinen Anzahl von Beobachtungen

Angenommen, ich habe eine kleine Anzahl (N) von Beobachtungen für eine Hypothese gesammelt , die ich testen möchte. Ich könnte die Bootstrap-Methode verwenden, um eine Stichprobenverteilung für das mittlere Ergebnis von N Beobachtungen zu erstellen, aber ich befürchte, dass dieses Modell zusammenbrechen könnte, wenn N sehr klein wird, was zu …

8 bootstrap

1

Bootstrap-Parameter- und Anpassungsschätzungen mit Nichtnormalität für Strukturgleichungsmodelle

Kontext: Im Rahmen der Modellierung von Strukturgleichungen habe ich nach dem Mardia-Test eine Nichtnormalität, aber univariate Indizes für Schiefe und Kurtosis liegen unter 2,0. Fragen: Sollten Parameterschätzungen (Koeffizientenschätzungen) mithilfe von Bootstrapping (1000 Replikate) mit vorspannungskorrigierten Methoden bewertet werden? Sollte anstelle des traditionellen Chi-Quadrat-Tests die Bootstrap-Version von Bollen-Stine verwendet werden?

8 bootstrap normality-assumption sem

3

Regressionen für Stichproben aus einer sehr großen Datei durchführen: Sind die Mittelwerte und SEs der Stichprobenkoeffizienten konsistente Schätzer?

Ich habe eine ziemlich kleine Datei mit 100 Millionen Zeilen und 30 Spalten oder so, auf der ich mehrere Regressionen ausführen möchte. Ich habe speziellen Code zum Ausführen der Regressionen für die gesamte Datei, aber ich möchte zufällige Stichproben aus der Datei ziehen und sie in R ausführen. Die Strategie …

8 r regression large-data bootstrap

2

Ob robuste lineare Regression oder Bootstrapping bei Heteroskedastizität verwendet werden soll?

Ich habe einen Datensatz, in dem ich eine lineare Regression durchführen muss. Leider gibt es ein Problem mit der Heteroskedastizität. Ich habe die Analyse unter Verwendung einer robusten Regression mit dem HC3-Schätzer für die Varianz erneut ausgeführt und auch das Bootstrapping mit der Bootcov-Funktion in Hmisc für R durchgeführt. Die …

8 regression bootstrap heteroscedasticity

1

Bootstrapping einer Stichprobe aus einer endlichen Population

Kann mich jemand auf eine theoretische Referenz zum Bootstrapping einer Stichprobe verweisen, die einer Population bekannter Größe entnommen wurde? Ich bin es gewohnt, Bootstrap zu verwenden, um Konfidenzintervalle einer Stichprobe zu berechnen, wenn die Populationsgröße als viel größer als die Stichprobe angesehen wird (daher sollte eine zufällige Auswahl mit Wiederholung …

8 confidence-interval sampling bootstrap finite-population

2

Kann ich Bootstrapping verwenden, um die Unsicherheit in einem Maximalwert eines GAM abzuschätzen?

Ich habe Daten aus einem Experiment, in dem ich die Entwicklung von Algenbiomasse als Funktion der Konzentration eines Nährstoffs untersuche. Die Beziehung zwischen Biomasse (der Antwortvariablen) und der Konzentration (der erklärenden Variablen) ist mehr oder weniger unimodal, mit einem klaren "Optimum" entlang der x-Achse, wo die Biomasse ihren Höhepunkt erreicht. …

8 bootstrap monte-carlo gam uncertainty

2

Zwei Methoden zur Verwendung von Bootstraping zum Testen des Unterschieds zwischen zwei Beispielmitteln

Ich möchte eine Hypothese mit einem Bootstrap testen (zwei Beispiel-Student-T-Tests). In Efron und Tibshirani 1993, S. 224, gibt es dafür einen expliziten Code: Subtrahieren Sie für jede Beobachtung den Gruppenmittelwert und addieren Sie den Gesamtmittelwert, wobei der Gesamtmittelwert der Mittelwert der kombinierten Stichproben ist. Sie behaupten, wir sollten Distributionen unter …

8 hypothesis-testing t-test bootstrap

Als «bootstrap» getaggte Fragen