Testen der Bootstrap vs. Permutation Hypothese

Es gibt verschiedene gängige Resampling-Techniken, die in der Praxis häufig verwendet werden, z. B. Bootstrapping, Permutationstest, Jackknife usw. In zahlreichen Artikeln und Büchern werden diese Techniken erläutert, z. B. Philip I Good (2010) Permutation, Parametric und Bootstrap Tests von Hypothesen

Meine Frage ist, welche Resampling-Technik hat an Popularität gewonnen und ist einfacher zu implementieren? Bootstrapping oder Permutationstests?

— Tu.2
quelle

Popularität ist kaum ein gutes Maß für Qualität. Gemessen an der Anzahl der Zitate (Kunden) ist McDonalds ein weitaus beliebteres (besseres?) Restaurant als jedes Drei-Sterne-Michelin-Hotel. Nehmen Sie Ihren nächsten Seminarsprecher mit zu McDonalds?

— StasK

Antworten:

Beide sind beliebt und nützlich, aber hauptsächlich für verschiedene Zwecke. Der Permutationstest eignet sich am besten zum Testen von Hypothesen und das Bootstrapping zum Schätzen von Konfidenzintervallen.

Permutationstests testen eine bestimmte Nullhypothese der Austauschbarkeit, dh dass nur die zufällige Stichprobe / Randomisierung den Unterschied erklärt. Dies ist der übliche Fall für Dinge wie T-Tests und ANOVA. Es kann auch auf Dinge wie Zeitreihen (Nullhypothese, dass es keine serielle Korrelation gibt) oder Regression (Nullhypothese ohne Beziehung) erweitert werden. Permutationstests können verwendet werden, um Konfidenzintervalle zu erstellen. Es sind jedoch viel mehr Annahmen erforderlich, die möglicherweise vernünftig sind oder nicht (daher werden andere Methoden bevorzugt). Der Mann-Whitney / Wilcoxon-Test ist eigentlich ein Sonderfall eines Permutationstests, weshalb er weitaus beliebter ist, als manche vermuten.

Der Bootstrap schätzt die Variabilität des Abtastprozesses und eignet sich gut zum Schätzen von Konfidenzintervallen. Auf diese Weise können Sie einen Hypothesentest durchführen, der jedoch in der Regel weniger aussagekräftig ist als der Permutationstest für Fälle, für die die Annahmen des Permutationstests gelten.

— Greg Snow
quelle

Danke für die Antwort. Warum ist das Bootstrap-Konfidenzintervall weniger leistungsfähig als der Permutationstest? Wie viel? Kann man die Situationen charakterisieren, in denen es bedeutend weniger mächtig ist? Es scheint ein Vorteil zu sein, ein Konfidenzintervall anzeigen zu können, daher erscheint der Bootstrap in diesem Sinne wertvoller.

— Dfrankow

@dfrankow, die beiden Methoden verwenden unterschiedliche Annahmen. Bei großen Stichproben und Unterschieden ist beides in Ordnung, bei kleineren Stichproben / Unterschieden ist es jedoch wahrscheinlicher, dass der Permutationstest Unterschiede feststellt und angemessen ist. Sehen Sie sich diese Antwort an: stats.stackexchange.com/questions/112147/… für Beispiele, bei denen der Bootstrap nicht einmal die richtige Größe hat (wird zu oft zurückgewiesen, wenn die Null wahr ist).

— Greg Snow

Ist ein Permutationstest nicht eine Variation des Bootstrapping?

— Vicki B

@VickiB-, Bootstrapping- und Permutationstests werden oft zusammen erwähnt, aber Boostrapping-Beispiele mit ersetzenden und ersatzlosen Permutationsbeispielen, was einen Unterschied darin macht, was sie können und wie leistungsfähig sie sind.

— Greg Snow

Wenn Sie R verwenden, sind sie alle einfach zu implementieren. Siehe zum Beispiel http://www.burns-stat.com/pages/Tutor/bootstrap_resampling.html

Ich würde sagen, es gibt eine dritte wichtige Technik: die Kreuzvalidierung. Dies wird verwendet, um die Vorhersagekraft von Modellen zu testen.

— Patrick Burns
quelle

Meine Frage ist, welche Resampling-Technik hat die Popularität von
Bootstrapping- oder Permutationstests gewonnen?

Beim Bootstrapping geht es hauptsächlich darum, große Beispielstandardfehler oder Konfidenzintervalle zu generieren. Wie der Name schon sagt, handelt es sich bei Permutationstests hauptsächlich um Tests. (Jeder kann angepasst werden, um für die andere Aufgabe verwendet zu werden.)
Wie würden wir die Popularität beurteilen? Wenn wir uns Bereiche wie Psychologie und Erziehung ansehen, können wir viele rangbasierte Tests wie Wilcoxon-Mann-Whitney, den signierten Rangtest, Rangkorrelationstests und so weiter finden. Dies sind alles Permutationstests (auf der anderen Seite gibt es viele Fälle, in denen Permutationstests der Originaldaten verwendet werden könnten, dies jedoch normalerweise nicht der Fall sind). In einigen anderen Anwendungsbereichen würden Permutationstests selten verwendet, aber die unterschiedliche Beliebtheit in den Anwendungsbereichen sagt manchmal mehr über die lokale Kultur des jeweiligen Bereichs als über die Nützlichkeit aus.

einfacher zu implementieren?

In vielen Fällen - besonders in einfacheren Fällen - sind sie fast genauso einfach - es ist im Wesentlichen der Unterschied zwischen der Probenahme mit Austausch und der Probenahme ohne Austausch.

In einigen der komplexeren Fälle ist das Bootstrapping einfacher durchzuführen, da es (aus der Sicht der Tests) alternativ und nicht null ausgeführt wird (zumindest bei naiven Implementierungen ist dies so, dass es gut funktioniert) kann viel komplizierter sein).

Genaue Permutationstests können in den komplexeren Fällen schwierig sein, da eine geeignete austauschbare Menge möglicherweise nicht beobachtbar ist - häufig kann eine nahezu austauschbare Menge zum Preis der Genauigkeit (und der tatsächlichen Verteilungsfreiheit) ersetzt werden.

Bootstrapping verzichtet von Anfang an im Wesentlichen auf das entsprechende Genauigkeitskriterium (exakte Abdeckung von Intervallen) und konzentriert sich stattdessen auf den Versuch, in großen Stichproben eine einigermaßen gute Abdeckung zu erzielen (manchmal mit weniger Erfolg, als man vielleicht versteht; wenn Sie dies nicht überprüft haben, ziehen Sie an Ich gehe nicht davon aus, dass Ihr Bootstrap die Abdeckung bietet, die Sie erwarten.

Permutationstests können mit kleinen Stichproben durchgeführt werden (obwohl die eingeschränkte Auswahl von Signifikanzstufen bei sehr kleinen Stichproben manchmal ein Problem sein kann), während der Bootstrap eine Technik mit großen Stichproben ist (wenn Sie ihn mit kleinen Stichproben verwenden, sind die Ergebnisse in vielen Fällen möglicherweise nicht so sehr nützlich sein).

Ich sehe sie selten als Konkurrenten mit dem gleichen Problem und habe sie bei (verschiedenen) realen Problemen eingesetzt - oft gibt es eine natürliche Auswahl, die ich mir ansehen kann.

Es gibt Vorteile für beide, aber weder in einem Panacaea. Wenn Sie den Lernaufwand reduzieren möchten, indem Sie sich nur auf einen von ihnen konzentrieren, werden Sie wahrscheinlich enttäuscht sein - beides sind wesentliche Bestandteile der Resampling-Toolbox.

— Glen_b
quelle

Könnten Sie bitte klarstellen, was " eine geeignete umtauschbare Menge möglicherweise nicht beobachtbar ist "? (+1 offensichtlich)

— usεr11852 sagt Reinstate Monic

Versuchen Sie, einen Permutationstest in einem Experiment mit zwei Faktoren und einer Kovariate durchzuführen (oder ziehen Sie einfach eine Regression mit mehreren Prädiktoren in Betracht). Unabhängig und ohne jegliche Auswirkungen sind die Beobachtungen austauschbar. Sie können diese Hypothese daher testen, haben aber keine Möglichkeit, einen Permutationstest nur für die Faktoren zu erstellen (da Sie erwarten, dass die Kovariate Auswirkungen hat) und es zu testen, ob es null ist, ist nicht interessant); In ähnlicher Weise können Sie keinen Permutationstest für nur einen der beiden Faktoren erstellen. ... ctd

— Glen_b

ctd ... Es gibt eine offensichtliche austauschbare Größe, wenn Sie die Populationskoeffizienten kennen, die Sie nicht testen (und die Fehler wären immer austauschbar), aber Sie können diese Dinge nicht beobachten. Wenn Sie Schätzungen der Koeffizienten oder der Fehler (dh der Residuen) ersetzen, sind die Mengen länger austauschbar. Unter bestimmten Bedingungen wären sie jedoch ungefähr austauschbar (einige Leute raten dazu, genau dies zu tun) .... und wenn Sie dies tun, erhalten Sie so etwas wie einen Bootstrap, jedoch mit ersatzlosem Sampling anstelle von Sampling mit Ersatz.

— Glen_b

Vielen Dank; Ich werde es mir genau überlegen. Ich vermute, dass ich hier etwas Tieferes lernen kann. :)

— usεr11852 sagt Reinstate Monic

@NULL aus irgendeinem Grund habe ich Ihre Referenzanfrage verpasst. Einige der Referenzen hier sollten als Ausgangspunkt gelten: davegiles.blogspot.com/2019/04/…

— Glen_b