Kann ich eine T-Test-Leistungsanalyse für ungleiche Größengruppen durchführen, die 2 verschiedene minimale n erzeugt?


9

Es ist normalerweise unkompliziert, eine Power Analysiszu berechnen minimum sample size, insbesondere in R , meiner bevorzugten statistischen Computerumgebung.

Ich werde jedoch gebeten, eine Leistungsanalyse durchzuführen, die sich ein wenig von allem unterscheidet, was ich getan habe oder auf die ich online verweisen kann. Ich frage mich, ob das, wonach ich gefragt werde, überhaupt möglich / gültig ist.

Das Projekt hat im Wesentlichen zwei unequal groupsZustände und die Hypothese ist, dass sich diese beiden Gruppen hinsichtlich einer Ergebnisvariablen (dh der Dauer von Telefonanrufen an Kunden) erheblich unterscheiden. Die "Kontroll" -Gruppe besteht aus 40 Staaten und hat etwa 2.500 Beobachtungen hervorgebracht. Die "Test" -Gruppe hat ungefähr 10 Zustände und 500 Beobachtungen.

Anfangs fand ich Gruppe means+ pooled standard deviation, mit der ich eine berechnet habe Effect Size. Dann habe ich ein Paket mit dem Namen pwrin Rund festgestellt , dass ich eine Mindeststichprobengröße benötigt von etwa 135 Beobachtungen pro Gruppe, gegeben .05 Bedeutung und 0,8 Macht.

Sie lehnten meine Antwort jedoch ab, weil sie möchten, dass eine Gruppe viel größer ist als die andere, wie sie jetzt ist, und sie erwarten entweder zwei unterschiedliche Mindestanzahl von Beobachtungen pro Gruppe oder einen Mindestprozentsatz der Bevölkerung in Bezug auf die Anzahl der Staaten oder Beobachtungen, die in ihre "Test" -Gruppe gehen müssen.

Ich sehe Leistungsanalysen für zwei Stichproben-T-Tests (dh die R-Funktion pwr.t2n.test), aber ich müsste mindestens eine der Stichprobengrößen angeben, während ich ihnen die minimale Stichprobengröße für beide Gruppen mitteilen soll (entweder als Zahlen oder Prozentsätze) und diese Funktion spiegelt nicht die Unterschiede in den Standardabweichungen für die beiden Gruppen wider.

Ist das möglich oder sage ich ihnen nur, dass es nicht so funktioniert (dh das Beste, was ich tun kann, ist ihnen zu sagen, dass bei einer der Stichprobengrößen und einer gepoolten Standardabweichung die zweite Gruppe mindestens eine bestimmte Größe haben muss)?

Antworten:


7

Sie können Stichprobengrößenberechnungen für ungleiche Stichprobengrößen durchführen.

Zum Beispiel können Sie entscheiden, ob die n in einem bestimmten Verhältnis stehen (z. B. im Verhältnis zu den Populationen).

Es ist dann möglich, Leistungsberechnungen durchzuführen (zumindest können Sie simulieren, um die Leistung unter bestimmten Umständen zu erhalten, unabhängig davon, ob Sie die Algebra ausführen können oder nicht).

Das Problem ist, dass es relativ ineffizient ist, Unterschiede im Vergleich zur gleichen Gesamtzahl von Beobachtungen bei gleichen Stichprobengrößen zu finden.

Stellen Sie sich vor, Sie hatten eine Gesamtstichprobe von mit gleicher Varianz in der Grundgesamtheit und nahezu gleicher Stichprobenvarianz und hatten die Wahl zwischen einem 50-50-Split und einem 90-10-Split ( vs ).n 1 = 0,5 n n 1 = 0,9 nn=n1+n2n1=0.5nn1=0.9n

Die T-Statistik mit zwei Stichproben lautet:

t=X¯1X¯2spooled1n1+1n2

Die Auswirkung der Stichprobengröße liegt im Begriff .1/1n1+1n2

Wenn Sie die 50-50-Aufteilung haben, ist dies wie eine 40% kleinere Standardabweichung. Bei einem gegebenen Sie mit der geraden Aufteilung einen wesentlich kleineren Effekt erzielen.n1+n2

Wenn die kombinierte Stichprobengröße keine effektive Einschränkung darstellt, kann diese Berechnung jedoch sinnlos sein. Dies ist in Fällen von Bedeutung, in denen jede Beobachtung die gleichen Grenzkosten verursacht, was nicht immer relevant ist.


Vielen Dank! Um dies tatsächlich durchzuführen, ist es meine beste Wahl, einfach so etwas wie pwr.t2n.test () in R für praktisch jede mögliche Kombination bei einer kombinierten Stichprobengröße zu verwenden, oder gibt es eine bessere Möglichkeit, dies zu berechnen? Wenn Sie eine andere Sprache / ein anderes Paket verwenden, kann ich herausfinden, wie Sie Ihre Antwort in R übersetzen können. In beiden Fällen vielen Dank für Ihre Lösung.
Hack-R

Ich verstehe nicht, was du hier vorhast. Soweit ich das beurteilen kann, können Sie sich nicht in einem beliebigen Verhältnis aufteilen. Mein Beispiel war es, den Effekt ungleichmäßiger Teilungen zu veranschaulichen. Wenn Sie eine feste Gesamtstichprobengröße haben, teilen Sie diese so nahe wie möglich auf 50-50 auf. Wenn Sie keine feste Gesamtstichprobengröße haben, optimieren Sie basierend auf Ihren tatsächlichen Kosten und Einschränkungen.
Glen_b -State Monica

Der Umfang meiner Informationen ist, dass sie derzeit diese zwei wirklich ungleichen Gruppen haben, die insgesamt 3.000 Beobachtungen in 50 US-Bundesstaaten umfassen. Sie fragen nach der Mindestanzahl von Beobachtungen pro Gruppe und / oder dem Prozentsatz, der in jede Gruppe eingehen soll, basierend auf den Mitteln und Standardabweichungen, die ich von den Daten erhalte. Ich habe keine Ahnung, ob sie die Daten 50-50 teilen könnten oder wie sie wollen, aber ich wollte ihnen das Minimum n in Gruppe 2 für jeden Wert von n der Gruppe 1 zeigen und ihnen auch die Kosten für andere Teilungen als 50 zeigen -50, wahrscheinlich in Bezug auf die Leistung. Ich dachte, das war ungefähr das, was Sie vorgeschlagen haben?
Hack-R

n

1
@Glen: Deshalb habe ich versucht, meinen Kommentar zur (Un-) Nützlichkeit von at test in der Daueranalyse schnell zu entfernen. Aber du warst noch schneller. Ein weiteres Problem ist die gruppierte Struktur der Daten. Aber Ihre Antwort passt genau zur Frage.
Michael M

2

Zunächst einmal, warum nehmen Sie gleiche Varianzen in den beiden Gruppen an? Bitte sagen Sie nicht: "Weil es bequem ist." Ich bezweifle ernsthaft, dass die Gruppenvarianzen gleich sind, obwohl dies bei gleichen Stichprobengrößen nicht entscheidend ist. Ihre Freiheitsgrade werden ausgeschaltet sein, aber Sie wissen, dass Sie mindestens 130 haben. Wen interessiert das? Es gibt viel größere Fragen zu beantworten.

n1n2ϕn1=10n2


Wie habe ich angenommen, dass es gleiche Abweichungen gibt? Ich weiß, dass es keine gibt. Deshalb habe ich nach der Möglichkeit gefragt, die verschiedenen Standardabweichungen für jede Gruppe zu verwenden, um eine Berechnung durchzuführen. Die normale Methode für eine Leistungsanalyse besteht jedoch darin, gepoolte Standardabweichungen zu verwenden, wenn Sie mehr als 1 haben Gruppe.
Hack-R

n1=n2\n112(n11)
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.