Der P-Wert ist definiert als die Wahrscheinlichkeit, eine Teststatistik zu erhalten, die mindestens so extrem ist wie das, was beobachtet wird, vorausgesetzt, die Nullhypothese ist wahr. Mit anderen Worten,
Aber was ist, wenn die Teststatistik in der Verteilung bimodal ist? Bedeutet p-Wert in diesem Zusammenhang etwas? Zum Beispiel werde ich einige bimodale Daten in R simulieren:
set.seed(0)
# Generate bi-modal distribution
bimodal <- c(rnorm(n=100,mean=25,sd=3),rnorm(n=100,mean=100,sd=5))
hist(bimodal, breaks=100)
Nehmen wir an, wir beobachten einen statistischen Testwert von 60. Und hier wissen wir aus dem Bild, dass dieser Wert sehr unwahrscheinlich ist . Im Idealfall würde ich eine statistische Prozedur wünschen, die ich verwende (sagen wir p-Wert), um dies aufzudecken. Aber wenn wir den definierten p-Wert berechnen, erhalten wir einen ziemlich hohen p-Wert
observed <- 60
# Get P-value
sum(bimodal[bimodal >= 60])/sum(bimodal)
[1] 0.7991993
Wenn ich die Verteilung nicht wüsste, würde ich schließen, dass das, was ich beobachtete, einfach zufällig ist. Aber wir wissen, dass das nicht stimmt.
Ich schätze, die Frage, die ich habe, lautet: Warum berechnen wir bei der Berechnung des p-Werts die Wahrscheinlichkeit für die Werte, die mindestens so extrem sind wie die beobachteten? Und wenn ich auf eine Situation stoße, wie ich sie oben simuliert habe, was ist die alternative Lösung?