Wie können wir jemals die Populationsvarianz kennen?


10

Bei Hypothesentests stellt sich häufig die Frage, wie groß die Populationsvarianz ist. Meine Frage ist, wie können wir jemals die Populationsvarianz kennen? Wenn wir die gesamte Verteilung kennen würden, könnten wir genauso gut den Mittelwert der gesamten Bevölkerung kennen. Was ist dann der Sinn des Hypothesentests?


Einige relevante Literatur: nber.org/papers/w20325
dv_bn

Man kann die Varianz kennen, ohne etwas über den Mittelwert zu wissen. Zum Beispiel kann die Varianz aus den Quadraten aller Wertunterschiede in der Population wiederhergestellt werden, aber diese Unterschiede geben keine Auskunft über den Mittelwert. Unabhängig davon sehe ich nicht, wie die Aussagen und Fragen in diesem Beitrag zu der Frage selbst über den Punkt des Hypothesentests führen.
whuber

Antworten:


10

Ich bin mir nicht sicher, ob dieses Problem wirklich "oft" außerhalb von Statistik 101 auftritt (Einführung in die Statistik). Ich bin mir nicht sicher, ob ich es jemals gesehen habe. Auf der anderen Seite präsentieren wir das Material beim Unterrichten von Einführungskursen auf diese Weise, da es einen logischen Fortschritt darstellt: Sie beginnen mit einer einfachen Situation, in der es nur eine Gruppe gibt und Sie die Varianz kennen, und gehen dann dahin über, wo Sie es nicht tun Kennen Sie die Varianz und fahren Sie dann mit zwei Gruppen fort (jedoch mit gleicher Varianz) usw.

Um einen etwas anderen Punkt anzusprechen, fragen Sie, warum wir uns mit Hypothesentests beschäftigen würden, wenn wir die Varianz kennen würden, da wir daher auch den Mittelwert kennen müssen. Der letzte Teil ist vernünftig, aber der erste Teil ist ein Missverständnis: Der Mittelwert, den wir kennen würden, wäre der Mittelwert unter der Nullhypothese. Das testen wir. Betrachten Sie das Beispiel von @ StephanKolassa für IQ-Scores. Wir wissen, dass der Mittelwert 100 und die Standardabweichung 15 beträgt. Wir testen, ob sich unsere Gruppe (z. B. linkshändige Rothaarige oder vielleicht einführende Statistikstudenten) davon unterscheidet.


2
(+1) Vielleicht kommt es eher vor, wenn "Stichproben aus einer Population" eine Art ist, über den Datenerzeugungsprozess nachzudenken, als etwas, das wörtlich genommen werden muss. Zum Beispiel die Präzision eines Messgeräts kennen.
Scortchi - Monica wieder einsetzen

Gung, als Praktizierender mit einer mehr als 20-jährigen Karriere, ist dieses Problem meiner Erfahrung nach häufiger aufgetreten, als Sie vermuten. Ich behaupte nicht, dass es "häufig" auftauchte, nur dass die Debatten stattfanden. In Bezug auf Statistik 101 waren die Diskussionen jedoch mehr als einmal rote Heringe, die wenig oder gar nichts über die Einzelheiten einer Studie oder eines Projekts aussagten - jemand wollte nur den Anschein von Intelligenz erwecken, wenn er die Frage stellte.
Mike Hunter

1
@DJohnson, ich nehme an, es hängt von den Themen ab, an denen Sie arbeiten.
Gung - Reinstate Monica

4

Oft wir nicht wissen , die Varianz als solche - aber wir haben eine sehr zuverlässige Schätzung aus einer anderen Probe. Zum Beispiel, hier ist ein Beispiel für die Beurteilung , ob durchschnittliches Gewicht von Pinguinen gegangen ist, wo wir den Mittelwert aus einer kleinen ish Probe verwenden, aber die Abweichung von einer größeren unabhängigen Stichprobe. Dies setzt natürlich voraus, dass die Varianz in beiden Populationen gleich ist.

Ein anderes Beispiel könnten klassische IQ-Skalen sein. Diese werden unter Verwendung sehr großer Stichproben auf einen Mittelwert von 100 und eine Standardabweichung von 15 normalisiert . Wir könnten dann eine bestimmte Stichprobe (z. B. 50 linkshändige Rothaarige) nehmen und fragen, ob ihr mittlerer IQ signifikant größer als 100 ist, wobei 15 ^ 2 als "bekannte" Varianz verwendet wird. Dies wirft natürlich erneut die Frage auf, ob die Varianz zwischen den beiden Stichproben wirklich gleich ist - schließlich testen wir bereits, ob die Mittelwerte unterschiedlich sind. Warum sollten also die Varianzen gleich sein?

Fazit: Ihre Bedenken sind berechtigt, und Tests mit bekannten Momenten dienen normalerweise nur didaktischen Zwecken. In Statistikkursen werden in der Regel sofort Tests mit geschätzten Momenten durchgeführt.


2

Die einzige Möglichkeit , die Populationsvarianz zu ermitteln, besteht darin, die gesamte Population zu messen.

Eine Messung der gesamten Bevölkerung ist jedoch häufig nicht möglich. Es erfordert Ressourcen wie Geld, Werkzeuge, Personal und Zugang. Aus diesem Grund beproben wir Populationen; das misst eine Teilmenge der Bevölkerung. Der Stichprobenprozess sollte sorgfältig und mit dem Ziel konzipiert werden, eine Stichprobenpopulation zu erstellen, die für die Population repräsentativ ist. Geben Sie zwei wichtige Überlegungen an - Stichprobengröße und Stichprobenverfahren.

Spielzeugbeispiel: Sie möchten die Gewichtsabweichung für die erwachsene Bevölkerung Schwedens schätzen. Es gibt ungefähr 9,5 Millionen Schweden, daher ist es unwahrscheinlich, dass Sie alle messen können. Daher müssen Sie eine Stichprobenpopulation messen, anhand derer Sie die tatsächliche Varianz innerhalb der Population abschätzen können.

Sie machen sich auf den Weg, um die schwedische Bevölkerung zu beproben. Dazu stehen Sie in der Stockholmer Innenstadt und stehen zufällig direkt vor der beliebten fiktiven schwedischen Burger-Kette Burger Kungen . Tatsächlich regnet es und es ist kalt (es muss Sommer sein), also stehen Sie im Restaurant. Hier wiegen Sie vier Personen.

Die Chancen stehen gut, dass Ihre Stichprobe die schwedische Bevölkerung nicht sehr gut widerspiegelt. Was Sie haben, ist eine Auswahl von Leuten in Stockholm, die in einem Burger-Restaurant sind. Dies ist eine schlechte Stichprobentechnik, da das Ergebnis wahrscheinlich dadurch verzerrt wird, dass die von Ihnen zu schätzende Population nicht angemessen dargestellt wird. Darüber hinaus haben Sie eine kleine StichprobengrößeSie haben also ein hohes Risiko, vier Personen auszuwählen, die sich in den Extremen der Bevölkerung befinden. entweder sehr leicht oder sehr schwer. Wenn Sie 1000 Personen befragt haben, ist es weniger wahrscheinlich, dass Sie einen Stichprobenfehler verursachen. Es ist weitaus weniger wahrscheinlich, 1000 ungewöhnliche Personen auszuwählen, als vier ungewöhnliche. Eine größere Stichprobe würde Ihnen zumindest eine genauere Schätzung des Mittelwerts und der Varianz des Gewichts bei den Kunden von Burger Kungen geben.

Geben Sie hier die Bildbeschreibung ein

Das Histogramm zeigt den Effekt der Stichprobentechnik. Die Grauverteilung könnte die Bevölkerung Schwedens darstellen, die nicht bei Burger Kungen isst (Mittelwert 85 kg), während das Rot die Bevölkerung der Kunden von Burger Kungen (Mittelwert 100 kg) darstellen könnte. , und die blauen Striche könnten die vier Personen sein, die Sie probieren. Eine korrekte Probenahmetechnik müsste die Bevölkerung fair wiegen, und in diesem Fall sollten ~ 75% der Bevölkerung, also 75% der gemessenen Proben, keine Kunden von Burger Kungen sein.

Dies ist ein großes Problem bei vielen Umfragen. Beispielsweise werden Personen, die wahrscheinlich auf Umfragen zur Kundenzufriedenheit oder auf Meinungsumfragen bei Wahlen antworten, in der Regel überproportional von Personen mit extremen Ansichten vertreten. Menschen mit weniger starken Meinungen neigen dazu, sie eher zurückhaltend auszudrücken.

Beim Testen von Hypothesen geht es beispielsweise ( nicht immer ) darum, zu testen, ob sich zwei Populationen voneinander unterscheiden. ZB wiegen Kunden von Burger Kungen mehr als Schweden, die nicht bei Burger Kungen essen? Die Fähigkeit, dies genau zu testen, hängt von der richtigen Probenahmetechnik und einer ausreichenden Probengröße ab.


R-Code zum Testen machen all dies möglich:

df1 = data.frame(rnorm(9500000, 85, 15), sample(c("Y","N","N","N"), replace = T))
colnames(df1) = c("weight","customer")
df1$weight = ifelse(df1$customer == "Y", df1$weight + rnorm(length(df1$weight[df1$customer =="Y"]), 15, 2), df1$weight)
subsample = sample(df1$weight[df1$customer=="Y"], size = 4)

png(paste0(path,"SwedenWeight.png"), res =1000, width = 4, height = 4, units = "in")
par(mar=c(5,6,2,2))
hist(df1$weight[df1$customer=="N"], xlab = "Kilograms", col = rgb(0,0,0,0.5), main ="")
hist(df1$weight[df1$customer=="Y"], add = T, col = rgb(1,0,0,0.5))
axis(side = 1, at = c(subsample), labels = c("","","",""), tck = -0.03, col = "blue")
axis(side = 1, at = c(0,150), labels = c("",""), tck = -0)
dev.off()

t.test(df1$weight~df1$customer)

Ergebnisse:

> t.test(df1$weight~df1$customer)

        Welch Two Sample t-test

data:  df1$weight by df1$customer
t = -1327.7, df = 4042400, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -15.04688 -15.00252
sample estimates:
mean in group N mean in group Y 
       84.99555       100.02024 

1

Ja, das stimmt, aber in diesen Fällen wird auch auf einen festen Mittelwert skaliert, sodass keine Situation entsteht, in der ein unbekannter Mittelwert und eine bekannte Varianz vorliegen. Die Skalierung erfolgt auch, nachdem alle Werte bekannt sind.
Ben - Reinstate Monica

1

Das einzige realistische Beispiel, an das ich denken kann, wenn der Mittelwert unbekannt ist, die Varianz jedoch bekannt ist, ist die zufällige Auswahl von Punkten auf einer Hypersphäre (in welcher Dimension auch immer) mit einem festen Radius und einem unbekannten Zentrum. Dieses Problem hat einen unbekannten Mittelwert (Mittelpunkt der Kugel), aber eine feste Varianz (quadratischer Radius der Kugel). Mir sind keine anderen realistischen Beispiele bekannt, bei denen es einen unbekannten Mittelwert, aber eine bekannte Varianz gibt. (Und um ganz klar zu sein: Nur eine externe Varianzschätzung aus anderen Daten zu haben, ist kein Beispiel für eine bekannte Varianz. Wenn Sie diese Varianzschätzung aus anderen Daten haben, warum haben Sie nicht auch eine entsprechende mittlere Schätzung aus denselben Daten? Daten?)

Meiner Ansicht nach sind statistische Einführungskurse, in denen Tests mit unbekanntem Mittelwert und bekannter Varianz unterrichtet werden, ein Anachronismus und werden als modernes Lehrmittel fehlgeleitet. Pädagogisch ist es weitaus besser, direkt mit dem T-Test für den Fall eines unbekannten Mittelwerts und einer unbekannten Varianz zu beginnen und den Z-Test als asymptotische Annäherung an diesen zu behandeln, der gilt, wenn die Freiheitsgrade groß sind (oder nicht) sogar die Mühe machen, den Z-Test überhaupt zu unterrichten). Die Anzahl der Situationen, in denen es eine bekannte Varianz, aber einen unbekannten Mittelwert geben würde, ist verschwindend gering, und es ist für die Schüler im Allgemeinen irreführend, diesen (wahnsinnig seltenen) Fall einzuführen.


0

Manchmal gibt es bei angewandten Problemen Gründe aus der Physik, der Wirtschaft usw., die uns über Varianz informieren und keine Unsicherheit aufweisen. In anderen Fällen ist die Bevölkerung möglicherweise begrenzt, und wir wissen möglicherweise einige Dinge über jeden, müssen jedoch Statistiken abrufen und durchführen, um den Rest zu lernen.

Im Allgemeinen ist Ihr Anliegen ziemlich berechtigt.


5
Ich habe eine harte Zeit , um ein Beispiel aus der Physik oder Wirtschaft abbildet , wo würden wir wissen , die Varianz, aber nicht die Mittel. Ähnliches gilt für diskrete Verteilungen. Können Sie ein oder zwei konkrete Beispiele nennen?
Stephan Kolassa

@StephanKolassa Ich glaube, dass physikalische experimentelle Messungen ein Beispiel wären - wir haben möglicherweise einen Prozess oder ein Messgerät mit einer bekannten Varianz (Messfehler). Wenn Sie also ein bestimmtes Ereignis messen, können Sie davon ausgehen, dass die Varianz dieselbe ist, aber Sie kann nur den wahren Mittelwert abschätzen.
Peteris

2
@Peteris: Das macht Sinn - aber es klingt eher wie der Fall, den ich bemerke, wenn die Varianz (Ihres Instruments) anhand früherer "Kalibrierungsproben" geschätzt wurde. Ich würde erwarten, dass eine theoretisch abgeleitete Varianz ohne Unsicherheit (!) Eine andere Sache ist.
Stephan Kolassa
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.