Ich habe Referenzen, die empfohlen haben, eine Stichprobengröße von mindestens 20 für die Verteilung von Datenanpassungen zu berücksichtigen.
Hat das einen Sinn?
Vielen Dank
Ich habe Referenzen, die empfohlen haben, eine Stichprobengröße von mindestens 20 für die Verteilung von Datenanpassungen zu berücksichtigen.
Hat das einen Sinn?
Vielen Dank
Antworten:
Wie viel davon abhängt, hängt von der erwarteten Verbreitung und Ihrer Forschungsfrage ab. Als Faustregel sollten Sie sich vor Faustregeln hüten. Wenn Sie die erwartete Verteilung kennen, führen Sie einige Simulationen unterschiedlicher Größe durch und bestimmen Sie, wie oft die Beispielsimulationen die tatsächliche Verteilung widerspiegeln. Dies sollte Ihnen als endgültige Stichprobengröße eine Orientierungshilfe geben.
Ich dachte, die magische Zahl der Stichprobengröße ist 1.000. Das ist es, was die meisten nationalen US-Umfragen haben, um eine Fehlerquote von etwa 3% zu erzielen: In der Realität sind die effektiven Stichprobengrößen aufgrund der ungleichen Auswahlwahrscheinlichkeit und der Nichtantwortanpassungen niedriger als 1000, was zu einer Fehlerquote von 3,7% führt. .
Mit nur 20 Beobachtungen können Sie technisch keine sehr hohen Werte für Schiefe und Kurtosis erhalten (natürlich normalisiert durch die Standardabweichungen der Stichprobe): Wenn Sie eine Verteilung nach der Methode der Momente anpassen, können Sie offensichtlich keine logarithmische Normalverteilung mit einer einigermaßen typischen Varianz von logarithmischen Werten von 1 (Einkommensverteilungen in Ländern mit mittlerer bis hoher Einkommensungleichheit; USA, Brasilien, Südafrika, Russland hat alle eine höhere Varianz der Log-Income), da es eine überraschend große Kurtosis von 111 hat. Natürlich wäre es dumm, eine Log-Normalverteilung nach der Methode der Momente anzupassen, aber ich wollte nur zeigen, dass einige reale Weltverteilungen dies tun werden wahrscheinlich komplizierter als das, was mit 20 Beobachtungen beschrieben werden kann.
Ein weiterer Blick auf Verteilungsanpassung kann durch Kerndichteschätzung getroffen werden: für die Stichprobe der Größe , die beliebteste Regel gibt die Bandbreite von h = 1,06 σ n - 1 / 5 = 0,58 σ , die effektiv die gesamte Verteilung umspannt mit dem Gaußschen Kernel. Mit anderen Worten, die meisten Stichproben der Größe 20 sehen normal aus, wenn Sie eine Schätzung der Kerneldichte durchführen, es sei denn, sie weisen eindeutig eine nennenswerte Kurtosis auf (was dann bedeuten würde, dass es einige äußerliche Beobachtungen gibt, die als separate Unebenheiten der Kerneldichte angezeigt werden Handlung).
Nee. Nicht aus der Ferne.
Stellen Sie sich das so vor: Wenn Sie einen milliardengroßen Raum (Menschheit) hätten und 20 Proben mit welcher Methode auch immer (20 Personen) entnommen hätten, könnten Sie die gewonnenen Informationen verwenden, um jeden Menschen auf dem Planeten einigermaßen gut zu verstehen? Nicht aus der Ferne. Es gibt 100 Milliarden Sterne in der Milchstraße. Wenn Sie (zufällig) 20 davon auswählen, können Sie dann die gesamte galaktische Astronomie verstehen? Auf keinen Fall.
In einem 1-D-Raum gibt es einige Heuristiken, meistens gültige Faustregeln, die helfen können, um zu beschreiben, wie viele Messungen Sie durchführen möchten. Sie beinhalten unterschiedliche Grade an Nützlichkeit und Rechtfertigung, sind aber in gewissem Sinne besser verteidigt als "20". Dazu gehören "5 Messungen pro Variable in Ihrer Anpassungsgleichung", "mindestens 35 Abtastwerte einer Gaußschen Dichtefunktion" und "mindestens 300 Abtastwerte einer Binomialfunktion". Echte Statistiker und kein Streber wie ich werden in der Lage sein, bestimmte Konfidenzintervalle und Unsicherheiten anhand erster Prinzipien und ohne Taschenrechner zuzuordnen.
Wenn Sie die Regel "5 Messungen pro Parameter in Ihrer Anpassungsgleichung" verwenden und die kumulative Dichte einer zweidimensional gekrümmten bikubischen Oberfläche in Bezug auf die Höhenverteilung anpassen möchten, erhalten Sie ein zugrunde liegendes System
Denken Sie bitte daran, dass "best" eine sinnlose Idee ist, ohne ein "Maß an Güte" zu haben. Was ist der beste Weg? Wenn Sie zu Ihrem Schicksal gehen, möglicherweise ein extrem langes und angenehmes. Wenn Sie zu Ihrer eigenen Krönung gehen, vielleicht eine kurze und großartige. Wenn du durch die Wüste gehst, eine kühle, schattige. Was ist die "beste" Anzahl von Proben? Es hängt so erstaunlich stark von Ihrem Problem ab, dass es vorher nicht mit Autorität beantwortet werden kann. Alle von ihnen? So viele wie du kannst? Die machen nur wenig Sinn. Ja, es ist, als wäre man teilweise tot oder schwanger. Teilweise unsinnig zu sein, ist die Folge eines sehr unterbestimmten Problems.
Wenn Sie versuchen, den Luftstrom über einem Flugzeug genau vorherzusagen? Möglicherweise benötigen Sie mehrere Millionen Messungen, um in den Ballpark zu gelangen. Wenn Sie wissen möchten, wie groß Sie sind, erledigen möglicherweise einer oder zwei die Arbeit.
Dies führt nicht zu den wichtigen Punkten "Überspannen des Raums" und "Abtasten an Orten, die die Varianz der Parameterschätzungen minimieren", aber die Frage, die eine Antwort auf Erstsemesterebene nahelegt, wäre relevant. Diese Dinge erfordern, dass Sie mehr über die Art des Problems wissen, bevor Sie implementiert werden können.
Anmerkung: bearbeitet, um pro Vorschläge zu verbessern.
Vielleicht für den Kontext, in dem Sie T-Tests oder ANOVAR durchführen - ein ziemlich häufiger Kontext in statistischen Basisanwendungen -, liegt es bei der Stichprobengröße, die Sie für jede Gruppe benötigen, um zuversichtlich zu sein, dass der Mittelwert jeder Gruppe ungefähr ist normalverteilt (gemäß dem zentralen Grenzwertsatz), wenn angenommen werden kann, dass die Verteilung mehr oder weniger unimodal und nicht extrem spitz ist. Zwanzig und nicht neunzehn oder einundzwanzig, weil es eine runde Zahl ist.
Auf der Power- und Sample-Size-Seite von Russ Lenth finden Sie einige Artikel zu diesem Thema (im Abschnitt Ratschläge in der Mitte der Seite).
Die Mindestanzahl von Personen in Ihrer Stichprobe variiert stark je nach Bevölkerungsgröße, Anzahl der Dimensionen (wenn Sie die Daten in Kategorien unterteilen) und Anzahl der Messungen (wenn Sie fortlaufende Messungen zu den einzelnen Stichproben durchführen), die Sie vornehmen, sowie der Größe von Ihr Universum, die Analysetechnik, die Sie verwenden möchten (dies ist ein sehr wichtiger Punkt - die Technik wird während der Planung der Studie oder während der Versuchsplanung definiert , niemals danach), und die Komplexität, die in früheren Studien gezeigt wurde.
Und 20 ist nicht genug für ernsthafte Forschungen außerhalb der Themen "seltene Krankheiten" und "experimentelle Psychologie" (psych wie Popper in seiner Arbeit definiert).
Und 20 ist nicht genug für ernsthafte Forschung außerhalb der Themen "seltene Krankheiten" und "experimentelle Psychologie" (Psych als Popper in seiner Arbeit definiert) , bei denen eine Wahrscheinlichkeitsverteilung angepasst wird .
Und nein, Sie sollten nicht ständig Menschen vergiften, um eine große Stichprobe zu erhalten. Common Sense- und Sequential-Tests weisen Sie an, anzuhalten.