Das Aufteilen von Stichproben kann möglicherweise das Problem mit der Verteilung der Statistik verringern, entfernt es jedoch nicht.
Ihre Idee vermeidet das Problem, dass die Schätzungen im Verhältnis zu den Bevölkerungswerten zu eng sind, da sie auf derselben Stichprobe basieren.
Sie vermeiden nicht das Problem, dass es sich immer noch um Schätzungen handelt. Die Verteilung der Teststatistik ist nicht tabellarisch.
In diesem Fall wird die Ablehnungsrate unter Null erhöht, anstatt sie dramatisch zu reduzieren.
Eine bessere Wahl ist ein Test, bei dem die Parameter nicht als bekannt vorausgesetzt werden, z. B. ein Shapiro Wilk.
Wenn Sie mit einem Kolmogorov-Smirnov-Test verheiratet sind, können Sie den Ansatz des Lilliefors-Tests wählen.
Das heißt, wenn Sie die KS-Statistik verwenden, aber die Verteilung der Teststatistik die Auswirkung der Parameterschätzung widerspiegeln soll, simulieren Sie die Verteilung der Teststatistik unter Parameterschätzung. (Es ist nicht mehr verteilungsfrei, daher benötigen Sie für jede Verteilung neue Tabellen.)
http://en.wikipedia.org/wiki/Lilliefors_test
Liliefors verwendete die Simulation für den Normalfall und den Exponentialfall, aber Sie können dies problemlos für jede bestimmte Verteilung tun. In so etwas wie R ist es nur eine Frage des Augenblicks, 10.000 oder 100.000 Stichproben zu simulieren und eine Verteilung der Teststatistik unter der Null zu erhalten.
[Eine Alternative könnte sein, den Anderson-Liebling in Betracht zu ziehen, der zwar das gleiche Problem hat, der aber nach dem Buch von D'Agostino und Stephens ( Goodness-of-Fit-Techniken ) weniger empfindlich dafür zu sein scheint. Sie könnten die Lilliefors-Idee anpassen, aber sie schlagen eine relativ einfache Anpassung vor, die ziemlich gut zu funktionieren scheint.]
Es gibt aber noch andere Ansätze; Es gibt zum Beispiel Familien von glatten Tests der Anpassungsgüte (siehe z. B. das Buch von Rayner und Best), die sich in einer Reihe spezifischer Fälle mit der Parameterschätzung befassen können.
* Der Effekt kann immer noch ziemlich groß sein - vielleicht größer, als normalerweise als akzeptabel angesehen würde. Momo ist zu Recht besorgt darüber. Wenn eine höhere Fehlerrate Typ I (und eine flachere Leistungskurve) ein Problem darstellt, ist dies möglicherweise keine Verbesserung!