Gibt es eine Referenz, die die Verwendung des nicht gepoolten Z-Tests zum Vergleich zweier Proportionen legitimiert?


8

Der Z-Test zum Vergleichen von zwei Proportionen lautet z=p^1p^2Var(p^1p^2) . Normalerweise wird das definiert

Var(p^1p^2)=p^(1p^)(1/n1+1/n2),

wo

p^=n1p^1+n2p^2n1+n2.

Gibt es eine schriftliche Referenz, die mich legitimiert, stattdessen die nicht gepoolte Varianz zu verwenden?

Var(p^1p^2)=p^1(1p^1)n1+p^2(1p^2)n2?

Antworten:


8

Auf der AP-Site wird darüber viel diskutiert .

Sie können jede gewünschte Statistik verwenden, vorausgesetzt, Sie wissen genau, was Sie tun, und sehen sich die entsprechende Nullverteilung an, um p-Werte oder Schwellenwerte zu berechnen.

Einige Statistiken sind jedoch besser als andere. In diesem Fall würden Sie nach (a) einer leicht zu berechnenden Nullverteilung und (b) einer Fähigkeit zur Erkennung von Unterschieden suchen.

Aber ich weiß nicht, warum Sie die nicht gepoolte Varianz gegenüber der gepoolten Varianz für den Test bevorzugen würden, obwohl dies bei der Berechnung eines Konfidenzintervalls für die Differenz bevorzugt werden könnte.


+1 Das ist eine gute Diskussion, die Sie gefunden haben. Es scheint jedoch nicht wirklich die Frage zu beantworten, ob die gepoolte Statistik irgendwie korrigiert werden könnte, um die gewünschte Testgröße zu erhalten und - vielleicht - eine größere Leistung zu erzielen. Um dieses Problem zu beheben, habe ich eine separate Antwort bereitgestellt.
whuber

Ihr Link führt nicht zu einer Diskussion. es geht zu einer Seite mit Charles Peltiers Standpunkt. Ich bin mir nicht sicher, warum dies die ausgewählte Antwort ist, da sie für mich nichts beantwortet. Verwenden Sie eine Statistik, die nicht konkret genug ist.
Jarad

2
@ Jarad Eine Definition des Wortes "Diskussion" ist "eine detaillierte Behandlung eines bestimmten Themas"; Das ist es was ich meinte. Die ausgewählte Antwort wird von der Person ausgewählt, die die Frage stellt. Mit "Verwenden Sie jede gewünschte Statistik" bezog ich mich auf den Teil "... Referenz, der mich legitimiert ..." der Frage.
Karl

9

Die nicht gepoolte Varianz ist tendenziell zu klein. Dies liegt daran, dass unter der Nullhypothese immer noch zufällige Variationen in den beiden beobachteten Anteilen auftreten, obwohl die zugrunde liegenden Wahrscheinlichkeiten gleich sind. Diese Zufallsvariation trägt zur gepoolten Varianz bei, jedoch nicht zur nicht gepoolten Varianz.

Infolgedessen hat für die nicht gepoolte Statistik nicht einmal annähernd eine Standardnormalverteilung. Wenn zum Beispiel und die wahren Wahrscheinlichkeiten beide , ist die Varianz von nur anstelle von . Wenn Sie Tabellen der Standardnormalverteilung verwenden, erhalten Sie falsche p-Werte: Sie sind in der Regel künstlich klein und lehnen die Null zu oft ab, wenn die Beweise nicht wirklich vorhanden sind.n 1 = n 2z n1=n2z 1 / 2 11/2z1/21

Trotzdem fragt man sich, ob dies korrigiert werden könnte. Es kann. Es stellt sich die Frage, ob ein korrigierter Wert von , der auf nicht gepoolten Schätzungen basiert, eine größere Fähigkeit haben könnte, Abweichungen von der Nullhypothese zu erkennen. Einige schnelle Simulationen legen nahe, dass dies nicht der Fall ist: Der gepoolte Test (im Vergleich zu einem ordnungsgemäß angepassten nicht gepoolten Test) hat eine bessere Chance, die Null abzulehnen, wenn die Null falsch ist. Daher habe ich mir nicht die Mühe gemacht, die Formel für die nicht gepoolte Korrektur auszuarbeiten. es scheint sinnlos.z

Zusammenfassend ist der nicht gepoolte Test falsch, aber mit einer geeigneten Korrektur kann er legitimiert werden. Es scheint jedoch dem gepoolten Test unterlegen zu sein.


Sie sagen: "Wenn zum Beispiel und die wahren Wahrscheinlichkeiten beide 1/2 sind, ist die Varianz von z nur 1/2 statt 1." Aber wenn die nicht gepoolte Varianz zu klein ist, sollte die Varianz von z zu groß sein, und ich würde denken, dass sie nur geringfügig zu groß wäre. n1=n2
Karl

Vergib mir, aber ich kann deinem Beispiel nicht folgen. Warum sollte die Varianz von 1 sein? Welche Werte nehmen Sie für und ? p 1 p 2zp^1p^2
glasig

@glassy hat (asymptotisch) Einheitsvarianz durch Konstruktion : Die Differenz wurde standardisiert, indem sie durch ihre geschätzte Varianz dividiert wurde. zp1^p1^
whuber

Ich möchte Sie nicht stören, aber ich verstehe nicht, warum, wenn eine Einheitsvarianz durch Konstruktion hat, Sie angeben, dass seine Varianz sein kann . Es scheint mir, dass seine Varianz in einem Fall gleich und in der anderen. Entschuldigung, ich verstehe nicht, wie diese Mengen ein Verhältnis von 2: 1 haben. In der Tat sind sie im Fall gleich. 1 / 2 p ( 1 - p ) 2z1/2p 1(1 - P 1)p^(1p^)2np 1= p 2p^1(1p^1)n+p^2(1p^2)np^1=p^2
glasig

Ich stimme überhaupt nicht zu. Warum nicht auch sagen, dass der Aufbau des Konfidenzintervalls für die Differenz zwischen zwei Proportionen der Normalverteilung widerspricht? Erstens: In jedem Fall kann die Verteilung nicht haben , da es kein Mittelwert (oder eine Summe oder eine lineare Kombination) normaler Zufallsvariablen ist. Im Gegenteil, es konvergiert direkt zur Normalverteilung, wenn divergiert (oder und , wenn Sie es vorziehen). Zweitens: Die gepoolten und nicht gepoolten Varianzschätzer sind sowohl korrekt als auch konsistent. t n n 1 n 2ztnn1n2
glasiger
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.