Warum sollte ich einen Bootstrap durchführen wollen, wenn ich einen unabhängigen Beispiel-T-Test berechne? (wie man einen Bootstrap-T-Test rechtfertigt, interpretiert und meldet)

Angenommen, ich habe zwei Bedingungen und meine Stichprobengröße für die beiden Bedingungen ist extrem niedrig. Nehmen wir an, ich habe nur 14 Beobachtungen in der ersten Bedingung und 11 in der anderen. Ich möchte den t-Test verwenden, um zu testen, ob sich die mittleren Unterschiede signifikant voneinander unterscheiden.

Erstens bin ich ein wenig verwirrt über die Normalitätsannahme des T-Tests, weshalb ich möglicherweise nicht vollständig Bootstrapping bekomme. Ist die Annahme für den t-Test, dass (A) die Daten aus einer normalen Population entnommen wurden oder (B) dass Ihre Stichprobenverteilungen Gaußsche Eigenschaften haben? Wenn es (B) ist, dann ist es nicht wirklich eine Annahme, oder? Sie können einfach ein Histogramm Ihrer Daten zeichnen und sehen, ob es normal ist oder nicht. Wenn meine Stichprobengröße jedoch niedrig ist, habe ich nicht genügend Datenpunkte, um festzustellen, ob meine Stichprobenverteilung normal ist.

Hier kommt meiner Meinung nach das Bootstrapping ins Spiel. Ich kann das Bootstrap durchführen, um zu sehen, ob mein Beispiel normal ist, oder? Zuerst dachte ich, dass Bootstrapping immer zu einer Normalverteilung führen würde, aber das ist nicht der Fall ( Kann Bootstrap-Resampling verwendet werden, um ein Konfidenzintervall für die Varianz eines Datensatzes zu berechnen ? Statexchange statexchange ). Ein Grund, warum Sie booten würden, ist, sich der Normalität Ihrer Beispieldaten sicherer zu sein, richtig?

An diesem Punkt werde ich jedoch gründlich verwirrt. Wenn ich einen t-Test in R mit der Funktion t.test durchführe und die Bootstrap-Abtastvektoren als die beiden unabhängigen Abtastwerte einsetze, wird mein t-Wert einfach wahnsinnig signifikant. Mache ich den Bootstrap-T-Test nicht richtig? Ich darf nicht, weil alles, was Bootstrapping macht, nur meinen t-Wert vergrößert, würde das nicht in jedem Fall passieren? Führen die Leute keinen T-Test für die Bootstrap-Samples durch?

Was ist der Vorteil der Berechnung von Konfidenzintervallen auf einem Bootstrap gegenüber der Berechnung von Konfidenzintervallen in unserer Originalstichprobe? Was sagen mir diese Konfidenzintervalle, dass Konfidenzintervalle für die ursprünglichen Probendaten dies nicht tun?

Ich glaube, ich bin verwirrt darüber, (A) warum ein Bootstrap verwendet werden soll, wenn dadurch nur mein t-Wert signifikanter wird, (B) nicht sicher ist, wie Bootstrapping bei der Durchführung eines unabhängigen Beispiel-T-Tests richtig eingesetzt werden soll, und (C) unsicher wie die Rechtfertigung, Ausführung und Ergebnisse von Bootstrapping in unabhängigen T-Test-Situationen gemeldet werden.

— stat_gurl
quelle

Haben Sie nicht zufällig viel mehr Abtastpunkte in Ihren Bootstrap-Abtastvektoren als in Ihren ursprünglichen Abtastvektoren? Wenn ja, bedeutet die Verwendung der Bootstrap-Vektoren in einem T-Test anstelle der Originaldaten eine künstliche Vergrößerung Ihrer Stichprobengröße. Dies kann Ihren p-Wert beliebig klein machen, ist jedoch bedeutungslos und unzulässig.

— Amöbe

Es gibt mehrere Missverständnisse in Ihrem Beitrag (von denen einige häufig sind und Ihnen möglicherweise das Falsche gesagt wurde, weil die Person, die Ihnen erzählt, nur die Fehlinformationen weitergegeben hat).

Erstens ist Bootstrap nicht der Retter der kleinen Stichprobengröße. Bootstrap ist für kleine Stichproben tatsächlich ziemlich schlecht geeignet, selbst wenn die Population normal ist. Diese Frage, Antwort und Diskussion sollten etwas Licht ins Dunkel bringen. Auch der Artikel hier gibt mehr Details und Hintergrundinformationen.

Sowohl der t-Test als auch der Bootstrap basieren auf Stichprobenverteilungen, wie die Verteilung der Teststatistik ist.

Der genaue t-Test basiert auf der Theorie und der Bedingung, dass die Population / der Prozess, der die Daten generiert, normal ist. Der t-Test ist ziemlich robust gegenüber der Normalitätsannahme (was die Größe des Tests betrifft, können Leistung und Präzision eine andere Sache sein), so dass in einigen Fällen die Kombination von "Normal genug" und "Große Stichprobengröße" bedeutet dass die Stichprobenverteilung "nahe genug" an der Normalität liegt, dass der t-Test eine vernünftige Wahl ist.

Anstatt eine normale Grundgesamtheit anzunehmen, verwendet der Bootstrap die Stichproben-CDF als Schätzung der Grundgesamtheit und berechnet / schätzt (normalerweise durch Simulation) die tatsächliche Stichprobenverteilung (die normal sein kann, aber nicht sein muss). Wenn die Stichprobe die Grundgesamtheit angemessen darstellt, funktioniert der Bootstrap gut. Bei kleinen Stichprobengrößen ist es für die Stichprobe jedoch sehr einfach, die Grundgesamtheit schlecht darzustellen, und die Bootstrap-Methoden sind in diesen Fällen mies (siehe die oben genannte Simulation und das oben genannte Dokument).

Der Vorteil des T-Tests besteht darin, dass er gut funktioniert, wenn alle Annahmen zutreffen (oder nahe beieinander liegen) (ich denke, es ist tatsächlich der einheitlich leistungsstärkste Test). Der Nachteil ist, dass es nicht gut funktioniert, wenn die Annahmen nicht wahr sind (und nicht annähernd wahr sind), und es gibt einige Fälle, in denen die Annahmen größere Unterschiede machen als in anderen. Und die T-Test-Theorie gilt nicht für einige interessierende Parameter / Statistiken, z. B. getrimmte Mittelwerte, Standardabweichungen, Quantile usw.

Der Vorteil des Bootstraps besteht darin, dass er die Stichprobenverteilung ohne viele der für parametrische Methoden erforderlichen Annahmen schätzen kann. Es funktioniert für andere Statistiken als den Mittelwert und in Fällen, in denen andere Annahmen nicht zutreffen (z. B. 2 Stichproben, ungleiche Varianzen). Der Nachteil des Bootstraps besteht darin, dass er stark von der Stichprobe abhängt, die die Grundgesamtheit darstellt, da er nicht die Vorteile anderer Annahmen aufweist. Der Bootstrap gibt Ihnen keine Normalität, sondern die Stichprobenverteilung (die manchmal normal aussieht, aber immer noch funktioniert, wenn dies nicht der Fall ist), ohne dass die Annahmen über die Grundgesamtheit erforderlich sind.

Für T-Tests, bei denen anzunehmen ist, dass die Population normal (oder zumindest normal genug) ist, ist der T-Test am besten (von 2).

Wenn Sie keine Normalität und kleine Beispiele haben, sollte weder dem T-Test noch dem Bootstrap vertraut werden. Für den Fall mit zwei Stichproben funktioniert ein Permutationstest gut, wenn Sie bereit sind, unter der Nullhypothese gleiche Verteilungen (einschließlich gleicher Varianzen) anzunehmen. Dies ist eine sehr vernünftige Annahme, wenn Sie ein randomisiertes Experiment durchführen, aber möglicherweise nicht, wenn Sie zwei verschiedene Populationen vergleichen (aber wenn Sie glauben, dass zwei Populationen unterschiedliche Ausbreitungen / Formen haben könnten, ist ein Test der Mittel möglicherweise nicht die interessanteste Frage oder die interessanteste bester Ort, um zu beginnen).

Bei großen Stichprobengrößen wird die Theorie der großen Stichproben sowohl T-Tests als auch Bootstrapping zugute kommen, und Sie werden beim Vergleich der Mittelwerte kaum oder gar keinen Unterschied feststellen.

Bei moderaten Stichprobengrößen kann der Bootstrap eine gute Leistung erbringen und wird möglicherweise bevorzugt, wenn Sie nicht bereit sind, die für die T-Test-Verfahren erforderlichen Annahmen zu treffen.

Das Wichtigste ist, die Annahmen und Bedingungen zu verstehen, die für die verschiedenen von Ihnen in Betracht gezogenen Verfahren erforderlich sind, und zu berücksichtigen, wie sich diese Bedingungen und Abweichungen von ihnen auf Ihre Analyse auswirken und wie Sie glauben, dass die Grundgesamtheit / der Prozess, der / der Ihre Daten erzeugt hat, zu diesen Bedingungen passt Die Simulation kann Ihnen helfen zu verstehen, wie sich die Abweichungen auf die verschiedenen Methoden auswirken. Denken Sie daran, dass alle statistischen Verfahren Bedingungen und Annahmen haben (mit der möglichen Ausnahme von SnowsCorrectlySizedButOtherwiseUselessTestOfAnything , aber wenn Sie diesen Test verwenden, werden die Leute Annahmen über Sie treffen).

— Greg Snow
quelle

\bar{X}

$\bar X$

@ssdecontrol, asymptotische Normalität / CLT bedeutet nur, dass die Stichprobenverteilung, sobald die Stichprobengröße groß genug ist, nahe genug an der Normalität liegt, aber nicht sagt, wie groß nahe genug ist. Für einige Populationen ist eine Stichprobengröße von 6 groß genug, für andere ist eine Stichprobengröße von 10.000 nicht groß genug. Es ist notwendig zu verstehen, wie Ihre Bevölkerung / Ihr Prozess aussehen kann, und Alternativen in Betracht zu ziehen.

— Greg Snow

@ GregSnow Ich wundere mich immer noch darüber: "Wenn ich einen t-Test in R mit der Funktion t.test durchführe und die Bootstrap-Sample-Vektoren als die beiden unabhängigen Samples einsetze, wird mein t-Wert einfach wahnsinnig signifikant. Bin ich nicht Den Bootstrap-T-Test richtig machen? Ich darf nicht, weil alles, was Bootstrapping macht, nur meinen t-Wert vergrößert, würde dies nicht in jedem Fall passieren? Führen die Leute keinen T-Test für die Bootstrap-Samples durch? "

— Herman Toothrot

@HermanToothrot, es ist nicht klar, was Sie tun, wenn Sie sagen, dass Sie das Bootstrap-Beispiel in die T-Test-Funktion einfügen. Aber die meisten Dinge, die ich mir mit dieser Beschreibung vorstellen kann, sind falsch. Es hört sich so an, als würden Sie den Computer davon überzeugen, dass Ihre Stichprobe viel größer ist als sie tatsächlich ist (was mehr Bedeutung gibt), was falsche / bedeutungslose Antworten garantiert. Um ein gutes Verständnis von Bootstrapping zu erlangen, ist mehr erforderlich, als in einen Kommentar oder sogar eine Antwort passen würde. Sie sollten wirklich eine Klasse besuchen, die den Bootstrap behandelt, oder zumindest ein Buch zu diesem Thema lesen.

— Greg Snow