P-Wert in einem Two-Tail-Test mit asymmetrischer Nullverteilung


18

Meine Situation ist wie folgt: Ich möchte durch eine Monte-Carlo-Studie p Werte von zwei verschiedenen Tests auf statistische Signifikanz eines geschätzten Parameters vergleichen (null ist "kein Effekt - Parameter ist Null", und die implizierte Alternative ist " Parameter ist nicht Null "). Test A ist der standardmäßige "unabhängige t-Test mit zwei Stichproben auf Mittelwertgleichheit" mit gleichen Abweichungen unter der Null.

Test B Ich habe mich selbst gebaut. Die hier verwendete Nullverteilung ist eine asymmetrische generische diskrete Verteilung. Aber ich habe den folgenden Kommentar in Rohatgi & Saleh (2001, 2. Aufl., S. 462) gefunden

"Wenn die Verteilung nicht symmetrisch ist, ist der p Wert im zweiseitigen Fall nicht gut definiert, obwohl viele Autoren empfehlen, den einseitigen p Wert zu verdoppeln . "

Die Autoren diskutieren dies nicht weiter und kommentieren auch nicht den "Vorschlag vieler Autoren", den einseitigen p Wert zu verdoppeln . (Das wirft die Frage auf: "Verdopple den p Wert von welcher Seite? Und warum diese Seite und nicht die andere?")

Ich konnte zu dieser ganzen Angelegenheit keine weiteren Kommentare, Meinungen oder Ergebnisse finden. Ich verstehe, dass wir mit einer asymmetrischen Verteilung, obwohl wir ein Intervall als symmetrisch um die Nullhypothese in Bezug auf den Wert des Parameters betrachten können, nicht die zweite übliche Symmetrie haben werden, nämlich die der Wahrscheinlichkeitsmassenzuweisung. Aber ich verstehe nicht, warum dies den p Wert "nicht gut definiert" macht. Persönlich sehe ich unter Verwendung eines Intervalls, das symmetrisch um die Nullhypothese für die Werte des Schätzers ist, keine DefinitionProblem beim Aussprechen von "Die Wahrscheinlichkeit, dass die Nullverteilung Werte erzeugt, die den Grenzen dieses Intervalls entsprechen oder außerhalb dieses Intervalls liegen, ist XX". Die Tatsache, dass sich die Wahrscheinlichkeitsmasse auf der einen Seite von der Wahrscheinlichkeitsmasse auf der anderen Seite unterscheidet, scheint zumindest für meine Zwecke keine Probleme zu verursachen. Aber es ist eher wahrscheinlich als nicht, dass Rohatgi & Saleh etwas wissen, was ich nicht weiß.

Das ist also meine Frage: Inwiefern ist (oder kann) der p Wert im Falle eines zweiseitigen Tests "nicht gut definiert", wenn die Nullverteilung nicht symmetrisch ist?

Ein vielleicht wichtiger Hinweis: Ich gehe die Angelegenheit eher im Sinne der Fischer an, ich versuche nicht, eine strenge Entscheidungsregel im Sinne von Neyman-Pearson zu erhalten. Ich überlasse es dem Benutzer des Tests, die Wert-Informationen zusammen mit anderen Informationen zu verwenden, um Rückschlüsse zu ziehen.p


4
Neben den Likelihood-basierten ("Fisherian") und LR-basierten (NP) Ansätzen werden bei einer anderen Methode kurze Konfidenzintervalle ermittelt und für Hypothesentests verwendet. Dies geschieht im Sinne der Entscheidungstheorie (und unter Verwendung ihrer Methoden), wobei die Länge in der Verlustfunktion enthalten ist. Für unimodale symmetrische Verteilungen der Teststatistik werden offensichtlich die kürzestmöglichen Intervalle unter Verwendung von symmetrischen Intervallen erhalten (im wesentlichen "Verdoppelung des p-Wertes" von einseitigen Tests). Kürzeste Intervalle hängen von der Parametrierung ab: Sie können also keine Fischer sein.
whuber

Ich habe mich gefragt, ob die hier veröffentlichten Antworten auch auf Betaverteilungen zutreffen. Vielen Dank.
JLT

@ JLT: Ja, warum nicht?
Scortchi

Antworten:


12

Wenn wir uns den exakten 2x2-Test ansehen und dies als unseren Ansatz betrachten, kann das, was "extremer" ist, direkt an der "geringeren Wahrscheinlichkeit" gemessen werden. (Agresti [1] erwähnt eine Reihe von Ansätzen verschiedener Autoren zur Berechnung zweier tailed p-Werte nur für diesen Fall des exakten 2x2-Fisher-Tests, von denen dieser Ansatz einer der drei ist, die speziell als "am beliebtesten" erörtert wurden.)

Bei einer kontinuierlichen (unimodalen) Verteilung finden Sie nur den Punkt im anderen Ende mit der gleichen Dichte wie Ihr Abtastwert, und alles, was mit der gleichen oder einer geringeren Wahrscheinlichkeit im anderen Ende auftritt, wird bei der Berechnung des p-Werts mitgezählt.

Für diskrete Verteilungen, die in den Schwänzen monoton nicht zunehmen, ist es ungefähr so ​​einfach. Sie zählen einfach alles mit der gleichen oder einer geringeren Wahrscheinlichkeit als Ihre Stichprobe, was unter den von mir hinzugefügten Annahmen (um den Begriff "Schwänze" mit der Idee in Einklang zu bringen) eine Möglichkeit bietet, dies herauszufinden.

Wenn Sie mit HPD-Intervallen vertraut sind (und wir haben es wieder mit Unimodalität zu tun), ist dies im Grunde genommen so, als würden Sie alles außerhalb eines offenen HPD-Intervalls nehmen, das durch Ihre Beispielstatistik in einem Endpunkt begrenzt ist.

Bildbeschreibung hier eingeben

[Wiederholen - das ist die Wahrscheinlichkeit unter der Null, die wir hier gleichsetzen.]

Zumindest im unimodalen Fall scheint es also einfach genug zu sein, Fishers exakten Test zu emulieren und dennoch über die beiden Schwänze zu sprechen.

Es kann jedoch sein, dass Sie nicht beabsichtigt haben, auf diese Weise den Geist von Fischers genauem Test aufzurufen.

Wenn wir also für einen Moment außerhalb dieser Vorstellung darüber nachdenken, was etwas "als oder extremer" macht, gehen wir etwas mehr in Richtung des Endes der Dinge von Neyman-Pearson. Es kann hilfreich sein (bevor Sie testen!), Einen Ablehnungsbereich für einen Test zu definieren, der auf einer allgemeinen Stufe (ich meine nicht, dass Sie buchstäblich einen berechnen müssen, genau wie Sie einen berechnen würden). Sobald Sie dies tun, sollte der Weg zur Berechnung zweier tailed p-Werte für Ihren Fall offensichtlich werden.α

Dieser Ansatz kann nützlich sein, selbst wenn ein Test außerhalb des üblichen Likelihood-Ratio-Tests durchgeführt wird. Für einige Anwendungen kann es schwierig sein, herauszufinden, wie p-Werte in asymmetrischen Permutationstests berechnet werden. Oft wird es jedoch wesentlich einfacher, wenn Sie zuerst über eine Ablehnungsregel nachdenken.

Bei F-Varianz-Tests ist mir aufgefallen, dass der "Double-One-Tail-P-Wert" dem, was ich als den richtigen Ansatz betrachte, ganz andere P-Werte verleihen kann. [Es sollte keine Rolle spielen, welche Gruppe Sie "Stichprobe 1" nennen oder ob Sie die größere oder die kleinere Varianz in den Zähler eingeben.]

[1]: Agresti, A. (1992),
A Survey of Exact Inference for Contingency Tables
Statistical Science . 7 , No. 1. (Feb.), S. 131-153.


1
ctd ... Wenn wir einen Likelihood-Ratio-Test durchführen, ist das Likelihood-Verhältnis immer einseitig, aber wenn wir einen äquivalenten zweiseitigen Test basierend auf einer Statistik erstellen, versuchen wir immer noch, mit kleineren Likelihood-Verhältnissen "extremer" zu lokalisieren.
Glen_b

2
Die Verdoppelung des einseitigen p-Werts könnte als Bonferroni-Korrektur für die Durchführung von zwei einseitigen Tests verteidigt werden. Schließlich neigen wir nach einem zweiseitigen Test in der Regel sehr dazu, Zweifel an der Wahrheit der Null als eine andere Hypothese zu begünstigen, deren Richtung durch die Daten bestimmt wird.
Scortchi

1
@Alecos es ist einfach genug, um eine symmetrische Wahl zu rechtfertigen! Ich finde es schwierig zu verstehen, wie Sie gelesen haben, was ich geschrieben habe, als ob eine symmetrische Wahl in keiner Weise sinnvoll wäre (diese Wahl wird in der Diskussion über die Ablehnungsregel behandelt - Sie können leicht eine symmetrische Wahl konstruieren Ablehnungsregel). Der erste Teil meiner Antwort war die Beantwortung des Teils der Frage nach Fisher. Wenn Sie nach Fisher fragen, sollte ich nicht diskutieren, was Fisher unter ähnlichen Umständen tun könnte? Sie scheinen meine Antwort so zu interpretieren, dass sie mehr sagt als sie ist.
Glen_b

1
@Alecos Insbesondere befürworte ich keine Ansätze von Fisher oder Neyman Pearson (ganz gleich, ob es sich um Likelihood-Ratio-Tests oder nur um Hypothesentests im Allgemeinen handelt). Sie sollten mich auch nicht als Hinweis darauf betrachten, dass etwas, das ich ausgelassen habe, möglicherweise falsch ist . Ich spreche nur über einige Dinge, die Sie in Ihrer Frage anscheinend angesprochen haben.
Glen_b -Reinstate Monica

2
Letztendlich ja. Das Schöne an Fischers Ansatz ist, dass er einen sehr vernünftigen Weg bietet, zu einem p-Wert zu gelangen, ohne überhaupt eine Alternative zu haben. Wenn Sie jedoch über bestimmte interessante Alternativen verfügen, können Sie Ihren Ablehnungsbereich mehr oder weniger genau auf diese Alternativen ausrichten, indem Sie die Teile des Probenraums angeben, in denen die Alternativen Ihre Proben tendenziell als Ablehnungsbereich ablegen. Eine Teststatistik, T, ist eine bequeme Methode, um dies zu erreichen, indem im Wesentlichen jedem Punkt eine einzelne Zahl zugeordnet wird (was uns ein "extremeres" ergibt, gemessen an T). ... ctd
Glen_b -Reinstate Monica

9

STST=|S|

t=min(PrH0(S<s),PrH0(S>s))S2t

SST=fS(S)X1.661.66

p=Pr(X>1.66)+Pr(X<1.66)=0.048457+0.048457=0.09691.
Ye1.66=5.25930.025732=e3.66
p=Pr(Y>5.2593)+Pr(Y<0.025732)=0.048457+0.00012611=0.04858.

Bildbeschreibung hier eingeben

Es ist zu beachten, dass kumulative Verteilungsfunktionen für ordnungserhaltende Transformationen invariant sind, sodass im obigen Beispiel die Verdoppelung des niedrigsten p-Werts ergibt

p=2t=2min(Pr(X<1.66),Pr(X>1.66))=2min(Pr(Y<5.2593),Pr(Y>5.2593))=2min(0.048457,0.951543)=2×0.048457=0.09691.

Eine Art Fortsetzung zu dieser Antwort, einige grundlegende Aspekte der Testkonstruktion der Diskussion , in der die alternative Hypothese explizit angegeben ist, kann gefunden werden hier .

S

pL=PrH0(Ss)
pU=PrH0(Ss)

für die unteren und oberen einseitigen p-Werte ist der zweiseitige p-Wert gegeben durch

Pr(Tt)={pL+PrH0(PUpL)when pLpUpU+PrH0(PLpU)otherwise

; dh indem zum kleineren einseitigen p-Wert der größte erreichbare p-Wert im anderen Schwanz addiert wird, der diesen nicht überschreitet. Beachten Sie, dass2t


1
Oh wow. Dies ist ein sehr guter Punkt, +1. Was raten Sie dann? Kann ich diese Diskrepanz auch so interpretieren, dass sie verschiedenen (in diesem Fall impliziten) Auswahlmöglichkeiten der Teststatistik entspricht?
Amöbe sagt Reinstate Monica

1
@amoeba: Kein Tippfehler! Und wenn Sie 1,66 beobachten, nehmen Sie das Minimum von 0,952 & 0,048. Wenn Sie tatsächlich -3,66 beobachten, ist dies das Minimum von 0,0001 und 0,9999.
Scortchi

1
@Scortchi Ich habe gerade die Antwort von Glen_b akzeptiert, weil sie mir im engeren Sinne "nützlicher" war. Aber Sie haben mir geholfen, die Falle des Denkens zu umgehen , "das ist alles", was eine ausgezeichnete Versicherungspolice für zukünftige Risiken darstellt. Danke noch einmal.
Alecos Papadopoulos

1
@Scortchi da muss ich zustimmen; Meine Antwort war ziemlich einfach und einseitig, und ich sollte die Antwort begründen, erweitern und begründen. Ich werde das wahrscheinlich in mehreren Schritten tun.
Glen_b

1
@ Glen_b: Danke, ich freue mich darauf. Ich möchte auch meine erweitern, um zu zeigen, wie Score-Tests und generalisierte Likelihood-Ratio-Tests (im Allgemeinen) unterschiedliche Antworten geben. & Die Theorie der unvoreingenommenen Tests ist in diesem Zusammenhang sicherlich erwähnenswert (aber ich kann mich kaum daran erinnern).
Scortchi
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.