Sie erhalten hier gute Antworten von @MansT & @ gui11aume (jeweils +1). Lassen Sie mich sehen, ob ich in beiden Antworten etwas expliziter herausfinden kann.
Beim Arbeiten mit diskreten Daten sind nur bestimmte p-Werte möglich, und das Problem ist schlimmer mit weniger Möglichkeiten / kleineren Datensätzen. Stellen Sie sich zum Beispiel vor, Sie würden mal eine Münze . Die Wahrscheinlichkeit, eine bestimmte Anzahl von Köpfen , ist:
Nehmen wir an, ein Forscher möchte's eine gegebene Münze (die eigentlich zu testen ist fair) für Fairness durch 10fache und Aufzeichnen der Anzahl der Köpfe Spiegel. Das heißt, die Nullhypothese ist hier wahr. Unser Forscher setztk p ( k ) = n !nkα=0,05
p ( k ) = n !k ! ( n - k ) !pk( 1 - p )n - k
α = 0,05Konventionell und weil das notwendig ist, um von der größeren Community akzeptiert zu werden. Lassen Sie uns nun das konventionelle Alpha für einen Moment ignorieren und die 2-tailed p-Werte (Typ I Fehlerraten) betrachten, die in dieser Situation möglich sind:
number of heads: 0 1 2 3 4 5 6 7 8 9 10
individual probability: .001 .010 .044 .117 .205 .246 .205 .117 .044 .010 .001
type I error rate: .002 .021 .109 .344 .754 1 .754 .344 .109 .021 .002
Dies zeigt, dass die Verwendung von langfristig zu einer Fehlerrate von Typ I mit zwei . Dies ist also eindeutig ein Fall, in dem . Wenn jedoch auf einen der obigen Werte ( anstelle von ) gesetzt würde, würde das Signifikanzniveau der Typ I-Fehlerrate entsprechen. Trotz dieses Problems ist der p-Wert hat die Typen - I - Fehlerrate in diesem Fall gleich. Beachten Sie, dass es hier kein Problem mit einer Nichtübereinstimmung zwischen einer diskreten Inferenzstatistik und einer kontinuierlichen Referenzverteilung gibt, da ich die exakte verwendet habe.021 α & ne; Typ - I - Fehler & alpha; .05α = 0,05.021α ≠ Typ I Fehlerα.05Binomialwahrscheinlichkeiten. Beachten Sie weiterhin, dass Situationen wie diese die Entwicklung des mittleren p-Werts veranlasst haben , um die Diskrepanz zwischen dem p-Wert und dem Signifikanzniveau zu minimieren.
Es kann Fälle geben, in denen der berechnete p-Wert nicht der langfristigen Fehlerrate des Typs I entspricht, zusätzlich zu der Tatsache, dass die Fehlerrate des Typs I nicht unbedingt dem Signifikanzniveau entspricht. Betrachten Sie eine 2x2-Kontingenztabelle mit diesen beobachteten Zählungen:
col1 col2
row1 2 4
row2 4 2
Wie soll ich nun den p-Wert für die Unabhängigkeit der Zeilen und Spalten berechnen? Es gibt viele Optionen (die ich hier diskutiere ). Ich beginne damit, die Statistik zu berechnen und sie mit ihrer Referenzverteilung zu vergleichen. das ergibt . Die Referenzverteilung ist jedoch stetig und daher nur eine Annäherung an das Verhalten dieser bestimmten (diskreten) Statistik. Wir können den genauen Test von Fisher verwenden, um die wahre Fehlerrate des Typs I zu bestimmen. dann bekomme ichχ2 χ 2 χ 2 p=0,56710,5637≠0,5671χ21= 1,3 , p = 0,248χ2χ2p = 0,5671. Wenn der p-Wert auf diese Weise berechnet wird, entspricht er der Fehlerrate vom Typ I, obwohl wir immer noch die Frage haben, ob einer der möglichen p-Werte genau 5% beträgt. Lassen Sie mich zugeben, dass ich ein wenig geschummelt habe, wenn ich die Yates-Korrektur für die Kontinuität verwendet hätte, hätte ich eine bessere Annäherung an die wahre Typ-I-Fehlerrate erhalten, aber es wäre immer noch nicht ganz richtig gewesen ( ). .5637 ≠ .5671
Hier geht es also darum, dass mit diskreten Daten:
- Ihr bevorzugtes Signifikanzniveau ist möglicherweise nicht eine der möglichen Typ-I-Fehlerraten.
- Die Verwendung (herkömmlicher) Annäherungen an kontinuierliche Statistiken führt zu ungenauen berechneten p-Werten.
Diese Probleme verschärfen sich, je kleiner Ihr . Soweit ich weiß, gibt es diese Probleme bei kontinuierlichen Daten nicht. N
(Obwohl die Frage nicht nach Lösungen für diese Probleme fragt), gibt es Dinge, die diese Probleme mindern:
- Größeres bedeutet mehr mögliche Werte, was die Dinge stetiger macht. N
- Es gibt oft Korrekturen (wie die Yates-Korrektur für die Kontinuität), die berechnete Werte näher an die korrekten Werte bringen.
- Exakte Tests (wenn möglich, dh wenn klein genug ist) ergeben korrekte p-Werte N
- Der mittlere p-Wert bietet die Möglichkeit, die Fehlerrate von Typ I näher an das von Ihnen gewählte Konfidenzniveau heranzuführen.
- Sie können explizit eine der vorhandenen Fehlerraten des Typs I verwenden (oder notieren, was dies sein würde).