Traditionell wird die statistische Inferenz im Zusammenhang mit Wahrscheinlichkeitsstichproben und der Art des Stichprobenfehlers gelehrt. Dieses Modell ist die Grundlage für den Signifikanztest. Es gibt jedoch auch andere Möglichkeiten, systematische Abweichungen vom Zufall zu modellieren, und es stellt sich heraus, dass unsere parametrischen (stichprobenbasierten) Tests tendenziell gute Annäherungen an diese Alternativen sind.
Parametrische Hypothesentests stützen sich auf die Stichprobentheorie, um Schätzungen des wahrscheinlichen Fehlers zu erhalten. Wenn einer Grundgesamtheit eine Stichprobe einer bestimmten Größe entnommen wird, sind Tests und Konfidenzintervalle nach Kenntnis der systematischen Art der Stichprobe von Bedeutung. Bei einer Population ist die Stichprobentheorie einfach nicht relevant und Tests sind im herkömmlichen Sinne nicht aussagekräftig. Inferenz ist nutzlos, es gibt nichts, worauf man schließen kann, es gibt nur das, was ... den Parameter selbst.
Einige umgehen dies, indem sie Superpopulationen ansprechen, für die die aktuelle Volkszählung steht. Ich finde diese Appelle nicht überzeugend - parametrische Tests basieren auf Wahrscheinlichkeitsstichproben und ihren Eigenschaften. Eine Population zu einem bestimmten Zeitpunkt kann eine Stichprobe einer größeren Population im Zeit- und Ortsverlauf sein. Ich sehe jedoch keine Möglichkeit, zu Recht zu behaupten, dass dies eine Zufallsstichprobe (oder allgemein eine Form einer Wahrscheinlichkeitsstichprobe) ist. Ohne eine Wahrscheinlichkeitsstichprobe sind die Stichprobentheorie und die traditionelle Logik des Testens einfach nicht anwendbar. Genauso gut können Sie anhand einer Convenience-Probe testen.
Um Tests bei der Verwendung einer Population zu akzeptieren, müssen wir natürlich auf die Grundlage dieser Tests bei Stichprobenverfahren verzichten. Ein Weg, dies zu tun, besteht darin, den engen Zusammenhang zwischen unseren probentheoretischen Tests - wie t, Z und F - und Randomisierungsverfahren zu erkennen. Randomisierungstests basieren auf der vorliegenden Stichprobe. Wenn ich Daten über das Einkommen von Männern und Frauen sammle, sind das Wahrscheinlichkeitsmodell und die Grundlage für unsere Fehlerschätzungen wiederholte zufällige Zuordnungen der tatsächlichen Datenwerte. Ich konnte beobachtete Unterschiede zwischen Gruppen mit einer Verteilung vergleichen, die auf dieser Randomisierung basierte. (Das machen wir übrigens immer wieder in Experimenten, bei denen die Zufallsauswahl aus einem Populationsmodell selten angemessen ist).
Nun stellt sich heraus, dass probentheoretische Tests oft gute Annäherungen an Randomisierungstests sind. Letztendlich denke ich, dass Tests aus Populationen in diesem Rahmen nützlich und sinnvoll sind und dazu beitragen können, systematische von zufälligen Variationen zu unterscheiden - genau wie bei stichprobenbasierten Tests. Die Logik, die verwendet wird, um dorthin zu gelangen, ist ein wenig anders, hat jedoch keinen großen Einfluss auf die praktische Bedeutung und Verwendung von Tests. Natürlich ist es möglicherweise besser, nur Randomisierungs- und Permutationstests zu verwenden, da diese bei all unserer modernen Rechenleistung leicht verfügbar sind.