Wie erstelle ich einen repräsentativen Stichprobensatz aus einem großen Gesamtdatensatz?

10

Mit welchen statistischen Techniken kann ein Stichprobensatz erstellt werden, der für die gesamte Bevölkerung repräsentativ ist (mit einem bekannten Konfidenzniveau)?

Ebenfalls,

Wie kann überprüft werden, ob die Stichprobe zum Gesamtdatensatz passt?
Ist es möglich, ohne den gesamten Datensatz zu analysieren (das könnten Milliarden von Datensätzen sein)?

sampling sample-size validation

— Mohit Ranka
quelle

8

Wenn Sie nicht den gesamten Datensatz analysieren möchten, können Sie wahrscheinlich keine geschichtete Stichprobe verwenden. Daher würde ich empfehlen, eine große einfache Zufallsstichprobe zu ziehen . Indem Sie eine Zufallsstichprobe ziehen , stellen Sie sicher, dass die Stichprobe im Durchschnitt repräsentativ für den gesamten Datensatz ist, und statistische Standardgenauigkeitsmaße wie Standardfehler und Konfidenzintervalle geben an, wie weit von den Populationswerten Ihre Stichprobenschätzungen entfernt sind Es besteht also keine wirkliche Notwendigkeit zu validieren, dass eine Stichprobe repräsentativ für die Bevölkerung ist, es sei denn, Sie haben Bedenken, die wirklich zufällig ausgewählt wurden.

Wie groß ist eine einfache Zufallsstichprobe? Je größer die Stichprobe, desto genauer sind Ihre Schätzungen. Da Sie bereits über die Daten verfügen, sind herkömmliche Stichprobengrößenberechnungen nicht wirklich anwendbar. Sie können genauso viel von Ihrem Datensatz verwenden, wie für die Berechnung praktisch ist. Sofern Sie nicht vorhaben, komplexe Analysen durchzuführen, die die Rechenzeit zu einem Problem machen, besteht ein einfacher Ansatz darin, die einfache Zufallsstichprobe so groß wie möglich zu machen, ohne dass dies zu Paging führtoder andere Speicherprobleme. Eine Faustregel, um die Größe Ihres Datasets auf nicht mehr als die Hälfte des Arbeitsspeichers Ihres Computers zu beschränken, damit Speicherplatz für die Bearbeitung und Platz für das Betriebssystem und möglicherweise einige andere kleinere Anwendungen (z. B. einen Editor und einen Webbrowser) zur Verfügung steht ). Eine weitere Einschränkung besteht darin, dass 32-Bit-Windows-Betriebssysteme nicht zulassen, dass der Adressraum für eine einzelne Anwendung größer als Byte = 2,1 GB ist. Wenn Sie also 32-Bit-Windows verwenden, kann 1 GB a sein angemessene Begrenzung der Größe eines Datensatzes. $2^{31}$

Es ist dann eine Frage der einfachen Arithmetik, zu berechnen, wie viele Beobachtungen Sie abtasten können, wenn Sie angeben, wie viele Variablen Sie für jede Beobachtung haben und wie viele Bytes jede Variable belegt.

— ein Stop
quelle

Danke für deine Antwort. Ich schätze, ich suche nach geschichteten Stichproben. (Ich suchte nach Algorithmen, die nicht sehr rechenintensiv sind, da es nicht einmal Sinn macht, nicht die gesamte Population zu analysieren, um eine repräsentative Menge zu erstellen. :-))

— Mohit Ranka

2

Bei Ihrer zweiten Frage könnten Sie zunächst fragen: "Wie wurden die Daten eingegeben?" Wenn Sie der Meinung sind, dass die Daten relativ willkürlich eingegeben wurden (dh unabhängig von beobachtbaren oder nicht beobachtbaren Merkmalen Ihrer Beobachtungen, die Ihre endgültige Analyse anhand der Daten beeinflussen könnten), können Sie beispielsweise die ersten 5 Millionen in Betracht ziehen oder jedoch Viele, mit denen Sie gerne arbeiten, sind repräsentativ für die gesamte Stichprobe und wählen zufällig aus dieser Gruppe aus, um eine Stichprobe zu erstellen, mit der Sie arbeiten können.

Um zwei empirische Verteilungen zu vergleichen, können Sie qq-Diagramme und den nichtparametrischen Kolmogorov-Smirnov-Test mit zwei Stichproben für Verteilungsunterschiede verwenden (siehe z. B. hier: http://en.wikipedia.org/wiki/Kolmogorov%E2) % 80% 93Smirnov_test ). In diesem Fall würden Sie die Verteilung jeder Variablen in Ihrer Stichprobe anhand der Verteilung dieser Variablen in Ihrem "vollständigen" Datensatz testen (es könnten wiederum nur 5 Millionen Beobachtungen aus Ihrer vollständigen Stichprobe sein). Der KS-Test kann unter geringer Leistung leiden (dh es ist schwierig, die Nullhypothese, dass zwischen den Gruppen kein Unterschied besteht, abzulehnen), aber bei so vielen Beobachtungen sollten Sie in Ordnung sein.

— Charlie
quelle