Warum ist die Leistung eines Hypothesentests ein Problem, wenn wir eine repräsentative Stichprobe booten können, um n gegen unendlich zu bringen?

Warum interessiert uns die Leistungsfähigkeit eines Hypothesentests, wenn wir nicht mehr in einem Zeitalter leben, in dem Computer langsam sind und es zu kostspielig ist, einen Permutationstest für alles durchzuführen, was auch nicht parametrisch ist?

Ist die Leistungsanalyse irrelevant, wenn ich einen Bootstrap- / Permutationshypothesentest durchführen kann?

Wir können die "Stichprobengröße" mit Bootstrapping unendlich machen, damit die Leistung durch Bootstrapping steigt.

bootstrap power-analysis power

Die Menge an Informationen, die sich auf die Hypothesen beziehen, die Sie haben, ist einfach die Information in den Originaldaten.

Durch erneutes Abtasten dieser Informationen, ob Bootstrapping, Permutationstest oder anderes Resampling, können keine Informationen hinzugefügt werden, die noch nicht vorhanden waren.

Der Punkt des Bootstrapings besteht darin, die Stichprobenverteilung einer bestimmten Menge zu schätzen, im Wesentlichen unter Verwendung des Stichproben-cdf als Annäherung an das Populations-cdf, aus dem es gezogen wurde.

Wie normalerweise verstanden, hat jede Bootstrap-Stichprobe dieselbe Größe wie die ursprüngliche Stichprobe (da die Entnahme einer größeren Stichprobe keine Aufschluss über die Variabilität der Stichproben bei der Stichprobengröße gibt, die Sie haben). Was variiert, ist die Anzahl solcher Bootstrap-Resamples.

Durch Erhöhen der Anzahl der Bootstrap-Beispiele wird diese Annäherung "genauer" erfasst, es werden jedoch keine Informationen hinzugefügt, die noch nicht vorhanden waren.

Mit einem Bootstrap-Test können Sie den Simulationsfehler in einer p-Wert-Berechnung reduzieren, aber Sie können den zugrunde liegenden p-Wert, den Sie approximieren, nicht verschieben (was nur eine Funktion des Beispiels ist). Ihre Schätzung ist nur weniger laut.

Nehmen wir zum Beispiel an, ich mache einen Bootstrap-T-Test mit einem Beispiel (mit einer einseitigen Alternative) und schaue, was passiert, wenn wir die Anzahl der Bootstrap-Beispiele erhöhen:

Die blaue Linie sehr nahe an 2 zeigt die t-Statistik für unsere Stichprobe, die ungewöhnlich hoch ist (der geschätzte p-Wert ist in beiden Fällen ähnlich, aber der geschätzte Standardfehler dieses p-Werts ist etwa 30% so groß für den zweiten)

Ein qualitativ ähnliches Bild - verrauschte gegenüber weniger verrauschten Versionen identischer zugrunde liegender Verteilungsformen - würde sich aus der Stichprobe der Permutationsverteilung einiger Statistiken ergeben.

Wir sehen, dass sich die Informationen nicht geändert haben. Die Grundform der Bootstrap-Verteilung der Statistik ist dieselbe. Wir erhalten lediglich eine etwas weniger verrauschte Vorstellung davon (und damit eine etwas weniger verrauschte Schätzung des p-Werts).

- -

Eine Leistungsanalyse mit einem Bootstrap- oder Permutationstest durchzuführen ist etwas schwierig, da Sie Dinge angeben müssen, die Sie im Test nicht annehmen mussten, wie z. B. die spezifische Verteilungsform der Population. Sie können die Leistung unter einer bestimmten Verteilungsannahme bewerten. Vermutlich haben Sie keine besonders gute Vorstellung davon, um welche Verteilung es sich handelt, oder Sie hätten diese Informationen verwenden können, um den Test zu erstellen (z. B. indem Sie mit etwas beginnen, das eine gute Leistung für eine Verteilung hat, die das widerspiegelt, was Sie verstehen es, dann vielleicht etwas robuster). Natürlich können Sie je nach den Umständen verschiedene mögliche Kandidatenverteilungen und verschiedene Sequenzen von Alternativen untersuchen.

— Glen_b -State Monica
quelle