So probieren Sie, wenn Sie die Verteilung nicht kennen

9

Ich bin ziemlich neu in der Statistik (eine Handvoll Uni-Kurse für Anfänger) und habe mich über Stichproben aus unbekannten Distributionen gewundert. Wenn Sie keine Ahnung von der zugrunde liegenden Verteilung haben, gibt es eine Möglichkeit, zu "garantieren", dass Sie eine repräsentative Stichprobe erhalten?

Beispiel zur Veranschaulichung: Angenommen, Sie versuchen, die globale Verteilung des Wohlstands herauszufinden. Für jede Person kann man irgendwie ihren genauen Reichtum herausfinden; Aber Sie können nicht jede einzelne Person auf der Erde "probieren". Nehmen wir also an, Sie befragen n = 1000 Personen nach dem Zufallsprinzip.

Wenn Ihre Stichprobe Bill Gates nicht enthielt, könnten Sie denken, dass es keine Milliardäre gibt.
Wenn Sie Bill Gates in Ihre Stichprobe aufgenommen haben, könnten Sie denken, dass Milliardäre häufiger sind als sie tatsächlich sind.

In beiden Fällen kann man nicht wirklich sagen, wie häufig oder selten Milliardäre sind. Sie können möglicherweise nicht einmal feststellen, ob überhaupt welche vorhanden sind.

Gibt es für einen solchen Fall einen besseren Stichprobenmechanismus?

Wie würden Sie a priori mitteilen, welches Probenahmeverfahren anzuwenden ist (und wie viele Proben benötigt werden)?

Es scheint mir, dass Sie möglicherweise einen großen Prozentsatz der Bevölkerung "befragen" müssen, um mit hinreichender Sicherheit zu wissen, wie häufig oder selten Milliardäre auf dem Planeten sind, und dass dies darauf zurückzuführen ist, dass die zugrunde liegende Verteilung etwas schwierig ist arbeiten mit.

— Syenmesh
quelle

1

Bei der Verteilung des Wohlstands würde vieles davon abhängen, was genau das Ziel war. Wenn zum Beispiel das Ziel darin bestand, das Wohlstandsniveau zu schätzen, das eine Person in die Top 10%, Top 20% usw. bringen würde, wäre es nicht kritisch, ob die Stichprobe Milliardäre umfasste oder nicht. Wenn das Ziel jedoch darin bestand, den Anteil der insgesamt 10% am gesamten Vermögen zu schätzen, wäre es wahrscheinlich entscheidend, wie die Stichprobe mit Milliardären umgeht. Der allgemeine Punkt hier ist, dass die Frage, ob eine Stichprobe repräsentativ ist, immer relativ zu dem ist, was Sie versuchen zu tun.

— Adam Bailey

Ja wirklich? offenes Problem, Antworten sind gut, sind immer noch Annäherungen (manchmal besser, manchmal schlechter). Es ist ein offenes Problem, vielleicht das einzige offene Problem der Statistik

— Nikos M.

9

Ich bestreite Ihre Behauptung, dass "In beiden Fällen können Sie nicht wirklich sagen, wie häufig oder selten Milliardäre sind". Sei der unbekannte Anteil der Milliardäre in der Bevölkerung. Mit einem einheitlichen Prior vor ist die hintere Verteilung von nach Ziehungen, bei der sich herausstellte, dass sie 0 Milliardäre hat, eine Beta-Verteilung (1.1001), die folgendermaßen aussieht: $f$ $f$ $f$ $1000$ p (f | b = 0)

Während die hintere Verteilung von nach Zügen, die sich als 1 Milliardär herausstellte, eine Beta-Verteilung (2.1000) ist, sieht dies folgendermaßen aus: $f$ $1000$ p (f | b = 1)

In beiden Fällen können Sie ziemlich sicher sein, dass . Sie könnten denken, dass das nicht präzise genug ist. Tatsächlich ist 0,01 für eine Stichprobe der Größe 1000 ziemlich genau. Die meisten anderen Größen, die Sie möglicherweise schätzen, wären weniger genau. Beispielsweise konnte der Anteil der Männchen nur innerhalb eines Bereichs der Größe 0,1 geschätzt werden. $f < 0.01$

— Tom Minka
quelle

7

Sie können zwei Dinge tun (separat oder in Kombination).

Modellieren Sie den Schwanz

Eine besteht darin, das Ende der Verteilung unter Verwendung einer parametrischen Verteilung zu modellieren. Es ist bekannt, dass Machtgesetze gut zur Verteilung des Reichtums passen. Versuchen Sie es also mit einer Pareto-Verteilung. Sie würden diese Verteilung entweder mit maximaler Wahrscheinlichkeit anpassen, dh indem Sie die Parameter finden, die Ihre Stichprobe am besten repräsentieren. Oder besser, Sie könnten einen Bayes'schen Priors auf die Parameter setzen und den vollen Posterior berechnen.

Leider sind Potenzgesetze sehr empfindlich gegenüber Parametern, und ohne viele große Datenpunkte in Ihrer Stichprobe besteht eine große Unsicherheit über den Exponenten. Die geschätzte Anzahl von Milliardären wird für diesen Parameter empfindlich sein, aber viel weniger als das durchschnittliche Vermögen von Milliardären, so dass die Situation nicht allzu schlecht ist.

Wichtigkeitsstichprobe

Die andere besteht darin, die Art und Weise zu ändern, in der Sie Ihre Probe sammeln. Angenommen, Sie vermuten (wie Sie sollten), dass es in Monaco oder Zürich mehr Milliardäre pro Kopf gibt als in Mogadishiu. Wenn Sie die Bevölkerung jeder dieser Städte kennen, können Sie eine größere Stichprobe in den Städten sammeln, in denen Sie mehr Milliardäre erwarten, und eine kleinere in den anderen.

Nehmen wir also an, Zürich hat 400.000 Menschen und Mogadischu 1.400.000 und wir wollen 9.000 Menschen befragen. Wir interessieren uns hier für die Anzahl der Millionäre, nicht für Milliardäre.

Eine unvoreingenommene Stichprobe würde 2.000 Menschen in Zürich und 7.000 in Mogadischu auswählen. Wir werden die Stichprobe jedoch durch siebenfache Stichproben aus Zürich verzerren. Wir werden also "so tun", als hätte Zürich 2.800.000 Menschen und werden uns später anpassen. Das heißt, wir werden 6.000 Menschen in Zürich anstelle von 2.000 und 4.000 in Mogadischu befragen.

Nehmen wir an, wir zählen 21 Millionäre in unserer Zürcher Stichprobe und nur 1 in unserer Mogadischu-Stichprobe. Da wir Zürich 7-fach überprobiert haben, würden wir es nur als 3 Millionäre zählen.

Dieses Verfahren verringert die Varianz Ihres Schätzers. Es kann auch in Verbindung mit der ersten Methode verwendet werden. In diesem Fall passen Sie die Wichtigkeitsabtastung an, wenn Sie eine parametrische Verteilung anpassen.

— Arthur B.
quelle

6

Ich denke, eine gute Stichprobenmethode basiert auf Vorkenntnissen des Systems. In Ihrem Bereich haben Sie Kenntnisse über mögliche Verzerrungen, die sich auf Ihre Probenahme auswirken können. Wenn Sie dieses Wissen nicht haben, können Sie es aus der Literatur erwerben.

In Ihrem Beispiel wissen Sie, dass es Milliardäre gibt und dass diese Ihre Stichprobe beeinflussen könnten. Sie können also entscheiden, die Stichprobe nach Bildungsniveau, Land, Art des Jobs usw. zu schichten. Es gibt mehrere Möglichkeiten.

Versuchen wir es mit einem anderen Beispiel. Ihr Ziel ist es, die Häufigkeit einer Mäuseart in einem Park zu bestimmen. In diesem Park gibt es Wald und Wiesen. Aus der Literatur wissen Sie, dass Mäuse im Wald häufiger vorkommen als auf Wiesen. Sie schichten Ihre Stichprobe also nach diesem Merkmal. Es ist ein anderes Stichprobenverfahren möglich, aber ich denke, Ihre besten Informationen stammen aus der vorhandenen Literatur.

Und wenn es keine Literatur zu Ihrem Fach gibt? Unwahrscheinlich, aber in diesem Zusammenhang würde ich eine Vorstudie durchführen, um festzustellen, welche Faktoren für die Probenahme berücksichtigt werden müssen.

— Emilie
quelle

2

Ob eine Probe repräsentativ ist oder nicht, hat nichts mit den beobachteten Messungen der Probe zu tun. Eine Stichprobe ist repräsentativ, wenn jeder Satz von Beobachtungseinheiten die gleiche Wahrscheinlichkeit hat, ausgewählt zu werden wie jeder andere Satz derselben Größe. Dies ist natürlich nur schwer möglich, wenn Sie eine vollständige Aufzählung Ihres Probenraums erhalten. Angenommen, Sie können dies (z. B. anhand von Daten des Zensus-Trakts) ermitteln, ist eine einfache Zufallsstichprobe repräsentativ.

Unabhängig davon, wie Sie Ihre Probe erhalten, müssen immer mindestens drei verschiedene Fehlerquellen berücksichtigt werden:

Stichprobenfehler: Durch Zufall nehmen Sie Bill Gates in Ihre repräsentative Stichprobe auf. Statistische Methoden, insbesondere die Breite der Konfidenzintervalle usw., sollen dies berücksichtigen, vorausgesetzt, Sie haben einige grobe Kenntnisse über die vorliegende Verteilung (z. B. Normalität, die die Vermögensverteilung definitiv nicht besitzt).

Stichprobenverzerrung: Die Stichprobe war nicht repräsentativ. Beispiel: Bill Gates hat eine nicht aufgeführte Nummer, sodass Ihre Telefonumfrage ihn niemals erreichen könnte (es sei denn, Sie verwenden so etwas wie "Zufallswahl"). Dies ist ein extremes Beispiel, aber die Stichprobenverzerrung ist sehr weit verbreitet. Ein häufiges Ereignis ist die Entnahme von Vor-Ort- oder Convenience-Proben: Sie befragen Restaurantgäste im Restaurant , ob ihnen der Ort gefällt, wie oft sie dort waren und ob sie zurückkehren möchten. Wiederholte Kunden werden weitaus häufiger befragt als einmalige Kunden, und Stichproben dieser Art können in ihren Einstellungen stark verzerrt sein.

Antwortverzerrung: Die Messungen selbst sind ungenau. Dies kann durch Fehlfunktionen des Messgeräts über bewusstes Lügen bis hin zu Quanteneffekten (z. B. Heisenbergs Unsicherheitsprinzip) verursacht werden.

— user3697176
quelle

Diese Antwort hat nützliche Ratschläge und deckt gute Gründe ab. Ich möchte vorschlagen, dass die Charakterisierung von "repräsentativ" jedoch zu restriktiv sein könnte, da sie gängige und nützliche Formen der Probenahme (einschließlich einiger, die in anderen Antworten ausdrücklich erwähnt werden) wie geschichtete Probenahme, Wichtigkeitsstichprobe und Formen systematischer Probenahme ausschließt . Wäre es nicht ausreichend zuzulassen, dass eine Stichprobe repräsentativ ist, wenn die Wahrscheinlichkeit bekannt ist, einen Satz von Beobachtungseinheiten einzubeziehen (und daher zur Erstellung unvoreingenommener Schätzungen verwendet werden kann), aber nicht unbedingt für alle Sätze einer bestimmten Größe konstant ist?

— whuber

@whuber "Wäre es nicht ausreichend zuzulassen, dass eine Stichprobe repräsentativ ist, wenn die Möglichkeit bekannt ist, einen Satz von Beobachtungseinheiten aufzunehmen ...": Dies ist richtig, und ich sollte meine Antwort bearbeiten, um geschichtete Stichproben und wichtige Stichproben anzuerkennen. Eine systematische Probenahme ist jedoch schwierig, und die in Link und anderswo gegebenen Ratschläge sind einfach falsch. Wenn die Daten systematische Muster enthalten, wird die Verzerrung durch einen zufälligen Startpunkt nicht beseitigt. Sie müssen lediglich sicherstellen, dass Sie die Verzerrung nicht berechnen können.

— user3697176

Vielleicht die bisher beste Antwort (im Sinne einer direkten Ausrichtung auf den statistischen Punkt)

— Nikos M.