Mit Bootstrap berechne ich p-Werte von Signifikanztests mit zwei Methoden:
- Resampling unter der Nullhypothese und Zählen der Ergebnisse mindestens so extrem wie das Ergebnis aus den Originaldaten
- Resampling unter der alternativen Hypothese und Zählen der Ergebnisse, die mindestens so weit vom ursprünglichen Ergebnis entfernt sind wie der Wert, der der Nullhypothese entspricht
Ich glaube , dass der 1 st Ansatz ganz korrekt ist , wie es die Definition von einem p - Wert folgt. Bei der zweiten bin ich mir weniger sicher, aber sie liefert normalerweise sehr ähnliche Ergebnisse und erinnert mich an einen Wald-Test.
Habe ich recht? Sind beide Methoden korrekt? Sind sie identisch (für große Proben)?
Beispiele für die beiden Methoden (Änderungen nach DWins Fragen und Eriks Antwort):
Beispiel 1. Erstellen wir einen Bootstrap-Test ähnlich dem T-Test mit zwei Beispielen. Methode 1 wird von einer Probe erneut abgetastet (erhalten durch Zusammenführen der beiden ursprünglichen). Methode 2 wird unabhängig von beiden Proben erneut abgetastet.Beispiel 2. Lassen Sie uns einen Bootstrap-Test der Korrelation zwischen x₁… xₐ und y₁… yₐ erstellen. Methode 1 nimmt keine Korrelation und kein Resample an und erlaubt (xₑ, yₔ) Paare, wobei e ≠ ≠ ist. Methode 2 kompiliert ein Bootstrap-Beispiel der ursprünglichen (x, y) Paare.
Beispiel 3. Lassen Sie uns einen Bootstrap-Test erstellen, um zu überprüfen, ob eine Münze fair ist. Methode 1 erstellt Zufallsstichproben mit der Einstellung Pr (Kopf) = Pr (Schwanz) = ½. Methode 2 wird die Probe der experimentellen Kopf / Schwanz-Werte erneut abtasten und die Proportionen mit ½ vergleichen.