Wenn Sie nicht den gesamten Datensatz analysieren möchten, können Sie wahrscheinlich keine geschichtete Stichprobe verwenden. Daher würde ich empfehlen, eine große einfache Zufallsstichprobe zu ziehen . Indem Sie eine Zufallsstichprobe ziehen , stellen Sie sicher, dass die Stichprobe im Durchschnitt repräsentativ für den gesamten Datensatz ist, und statistische Standardgenauigkeitsmaße wie Standardfehler und Konfidenzintervalle geben an, wie weit von den Populationswerten Ihre Stichprobenschätzungen entfernt sind Es besteht also keine wirkliche Notwendigkeit zu validieren, dass eine Stichprobe repräsentativ für die Bevölkerung ist, es sei denn, Sie haben Bedenken, die wirklich zufällig ausgewählt wurden.
Wie groß ist eine einfache Zufallsstichprobe? Je größer die Stichprobe, desto genauer sind Ihre Schätzungen. Da Sie bereits über die Daten verfügen, sind herkömmliche Stichprobengrößenberechnungen nicht wirklich anwendbar. Sie können genauso viel von Ihrem Datensatz verwenden, wie für die Berechnung praktisch ist. Sofern Sie nicht vorhaben, komplexe Analysen durchzuführen, die die Rechenzeit zu einem Problem machen, besteht ein einfacher Ansatz darin, die einfache Zufallsstichprobe so groß wie möglich zu machen, ohne dass dies zu Paging führtoder andere Speicherprobleme. Eine Faustregel, um die Größe Ihres Datasets auf nicht mehr als die Hälfte des Arbeitsspeichers Ihres Computers zu beschränken, damit Speicherplatz für die Bearbeitung und Platz für das Betriebssystem und möglicherweise einige andere kleinere Anwendungen (z. B. einen Editor und einen Webbrowser) zur Verfügung steht ). Eine weitere Einschränkung besteht darin, dass 32-Bit-Windows-Betriebssysteme nicht zulassen, dass der Adressraum für eine einzelne Anwendung größer als Byte = 2,1 GB ist. Wenn Sie also 32-Bit-Windows verwenden, kann 1 GB a sein angemessene Begrenzung der Größe eines Datensatzes.231
Es ist dann eine Frage der einfachen Arithmetik, zu berechnen, wie viele Beobachtungen Sie abtasten können, wenn Sie angeben, wie viele Variablen Sie für jede Beobachtung haben und wie viele Bytes jede Variable belegt.