Wie führt man einen Student-T-Test durch, bei dem nur Stichprobengröße, Stichprobenmittelwert und Bevölkerungsmittelwert bekannt sind?


28

Der Test des Schülers erfordert die Standardabweichung der Stichprobe . Wie berechne ich jedoch für wenn nur die Stichprobengröße und der Stichprobenmittelwert bekannt sind?s stss

Wenn beispielsweise die Stichprobengröße und der Durchschnittswert beträgt , werde ich versuchen, eine Liste mit identischen Stichproben mit jeweils Werten zu erstellen . Erwartungsgemäß beträgt die Standardabweichung der Stichprobe . Dies erzeugt ein Problem beim Teilen durch Null im Test.112 49 112 0 t49112491120t

ZUSÄTZLICHE DATEN:
Das Durchschnittseinkommen der Arbeiter der ACME North Factory beträgt . Es wird berichtet, dass eine Zufallsstichprobe von Arbeitern in der ACME South Factory ein Jahreseinkommen von . Ist dieser Unterschied statistisch signifikant?$20049$112

Habe ich Recht, wenn ich sage, dass der Bevölkerungsdurchschnitt ?$200


Welches Problem versuchen Sie zu lösen? Es würde uns helfen, Ihnen zu helfen, wenn Sie uns mehr erzählten.
pmgjones

Sicher. Ich habe ein Beispielproblem hinzugefügt.
Kit

Antworten:


32

Dies mag viele überraschen, aber um dieses Problem zu lösen, müssen Sie nicht unbedingt s schätzen . Tatsächlich müssen Sie nichts über die Verbreitung der Daten wissen (obwohl das natürlich hilfreich wäre). Beispielsweise beschreiben Wall, Boen und Tweedie in einem Artikel von 2001, wie ein endliches Konfidenzintervall für den Mittelwert einer unimodalen Verteilung basierend auf einer einzelnen Ziehung ermittelt wird.

Im vorliegenden Fall haben wir einige Grundlagen, um den Stichprobenmittelwert von 112 als ein Unentschieden aus einer annähernd normalen Verteilung zu betrachten (dh der Stichprobenverteilung des Durchschnitts einer einfachen Zufallsstichprobe von 49 Gehältern). Wir gehen implizit davon aus, dass es eine relativ große Anzahl von Fabrikarbeitern gibt und dass ihre Gehaltsverteilung nicht so verzerrt oder multimodal ist, dass der zentrale Grenzwertsatz funktionsunfähig wird. Dann reicht ein konservativer 90% CI für den Mittelwert nach oben bis

112+5.84 |112|,

Eindeutige Erfassung des wahren Mittelwerts von 200. (Siehe Formel 3 von Wall et al .) Angesichts der begrenzten verfügbaren Informationen und der hier getroffenen Annahmen können wir daher nicht den Schluss ziehen, dass sich 112 "signifikant" von 200 unterscheidet.

Referenz: "Ein effektives Konfidenzintervall für den Mittelwert mit Stichproben der Größe eins und zwei." Der amerikanische Statistiker, Mai 2001, Vol. 55, Nr. 2: S. 102-105. ( pdf )


4
Ja ist es! Deshalb lohnt es sich zu studieren: Herausforderungen an unsere Intuition sind außerordentlich lehrreich. Das habe ich zum ersten Mal aus einem durchsichtigen Artikel auf der Webseite von Carlos Rodriguez (SUNY Albany) erfahren, aber ich konnte es heute Morgen nicht finden: Es scheint, dass der Server ausgefallen ist. Versuchen Sie später, "Carlos Rogriguez Statistics" zu googeln. (Sein Artikel soll sich unter omega.albany.edu/8008/confint.html befinden , aber dies könnte eine alte URL sein.)
whuber

4
Tolle. Ich wusste das nicht. Danke für den Hinweis.
Rob Hyndman

4
Danke - ist das vielleicht die Rodriguez-Zeitung, an die Sie denken? arxiv.org/abs/bayes-an/9504001
ars

2
Das ist toll. Ich bin jedoch gespannt, warum Sie die Formel (3) (die von Edelman stammt) angewendet haben, die Wall et al. Als "breiter als nötig" beschreiben. Gegen Ende des Absatzes unmittelbar vor Erwähnung von (3) verwenden sie 4,84 (genau 1 kleiner als 5,84) für ein 90% -Intervall, das sich aus ihrer Gleichung (4) ergibt. Zweifellos habe ich etwas verpasst.
Glen_b

2
@ Glen_b Im Gegenteil, wahrscheinlich habe ich etwas verpasst. Ich werde darauf achten, wenn ich dieses Papier das nächste Mal benötige, aber in der Zwischenzeit hat der Unterschied in den Konstanten keinen Einfluss auf die Analyse hier.
Whuber

13

Dies scheint eine leicht erfundene Frage zu sein. 49 ist ein genaues Quadrat von 7. Der Wert einer t-Verteilung mit 48 DoF für einen zweiseitigen Test von p <0,05 ist sehr nahe 2 (2,01).

Wir lehnen die Nullhypothese der Mittelwertgleichheit ab, wenn | sample_mean - popn_mean | > 2 * StdError, dh 200-112> 2 * SE, also SE <44, dh SD <7 * 44 = 308.

Ohne negative Löhne wäre eine Normalverteilung mit einem Mittelwert von 112 und einer Standardabweichung von 308 (oder mehr) nicht möglich.

Unter der Voraussetzung, dass die Löhne unten begrenzt sind, sind sie wahrscheinlich ungleichmäßig, sodass eine logarithmische Normalverteilung angemessener wäre, es jedoch weiterhin sehr unterschiedliche Löhne erfordern würde, um ein p <0,05 bei einem t-Test zu vermeiden.


3

Angenommen, es gibt 999 Arbeiter in der Fabrik von ACME Nord, die jeweils 112 verdienen, und 1 CEO, der 88112 verdient. Das Durchschnittsgehalt der Bevölkerung beträgt Die Wahrscheinlichkeit, den CEO aus einer Stichprobe von zu ziehen 49 Mitarbeiter in der Fabrik sind (dies ergibt sich aus der hypergeometrischen Verteilung). Mit 95% igem Vertrauen ergibt sich ein Durchschnittswert der Bevölkerung von 112. Durch Anpassen des Verhältnisses von Arbeitnehmern / CEOs und des Gehalts von Als CEO können wir es willkürlich unwahrscheinlich machen, dass eine Stichprobe von 49 Mitarbeitern einen CEO zieht, während der Bevölkerungsmittelwert auf 200 und der Stichprobenmittelwert auf 112 festgelegt wird. Ohne einige Annahmen über die zugrunde liegende Verteilung können Sie also keine ziehen Rückschlüsse auf die Bevölkerung bedeuten.49 / 1000 < 0,05μ=0.999112+0.00188112=200.49/1000<0.05


2
(1) Ich denke, Sie wollten schreiben, dass die Stichprobe , nicht der Bevölkerungsdurchschnitt , 112 mit einer Wahrscheinlichkeit von 95% ist , kein Vertrauen. (2) Ihr Punkt ist gut verstanden - er könnte auf jede Frage zutreffen - aber ist er nicht ein wenig extrem formuliert? Erstens verlangt die Frage keinen Rückschluss auf den Bevölkerungsdurchschnitt: Uns wird gesagt, dass er 200 beträgt . Daher können wir den Bevölkerungsdurchschnitt unter den gegebenen Voraussetzungen mit Sicherheit schätzen! Zweitens, selbst wenn wir gebeten würden, den Bevölkerungsdurchschnitt aus der Stichprobe zu schätzen, könnten wir noch einige triviale Informationen anbieten (z. B. nicht mehr als 10 ^ 11 USD pro Jahr). $
Whuber

1
(1) guter Fang. (2) Ja, ich kann das Problemsetup asymptotisch pervers für fixe Ergebnisse machen, post hoc . mein Fehler. Ich bin mir jedoch nicht mehr sicher, was das OP zu testen versucht. Wenn sie wissen, dass die durchschnittliche Bevölkerungszahl 200 beträgt, warum versuchen sie es dann zu testen?
Shabbychef

1
Übrigens gilt ein CEO-Gehalt / Mindestlohn-Verhältnis von 400 in den USA offenbar nicht als extrem. 800 ist allerdings etwas pervers.
Shabbychef

2

Ich nehme an, Sie beziehen sich auf einen Test mit einer Stichprobe. Ziel ist es, den Mittelwert Ihrer Stichprobe mit einem hypothetischen Mittelwert zu vergleichen. Dann wird ein P-Wert berechnet (vorausgesetzt, Ihre Population ist Gauß), der diese Frage beantwortet: Wenn der Populationsmittelwert wirklich der hypothetische Wert wäre, wie unwahrscheinlich wäre es, eine Stichprobe zu ziehen, deren Mittelwert so weit (oder weiter) von diesem Wert entfernt ist hast du beobachtet? Natürlich hängt die Antwort auf diese Frage von der Stichprobengröße ab. Es kommt aber auch auf die Variabilität an. Wenn Ihre Daten eine enorme Streuung aufweisen, stimmen sie mit einem breiten Spektrum an Bevölkerungsmitteln überein. Wenn Ihre Daten wirklich knapp sind, stimmen sie mit einem kleineren Bereich von Bevölkerungsmitteln überein.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.