Abgesehen von dem offensichtlichen Problem der geringen Leistung des Chi-Quadrats unter diesen Umständen, stellen Sie sich vor, Sie führen einen Chi-Quadrat-Test für eine bestimmte Dichte mit nicht festgelegten Parametern durch, indem Sie die Daten bündeln.
Nehmen wir der Vollständigkeit halber eine Exponentialverteilung mit unbekanntem Mittelwert und einer Stichprobengröße von beispielsweise 100 an.
Um eine vernünftige Anzahl von erwarteten Beobachtungen pro Bin zu erhalten, müssten einige Daten berücksichtigt werden (wenn wir beispielsweise 6 Bins unter den Mittelwert und 4 darüber setzen, werden immer noch datenbasierte Bin-Grenzen verwendet). .
Diese Verwendung von Behältern basierend auf dem Anzeigen der Daten würde sich jedoch vermutlich auf die Verteilung der Teststatistik unter der Null auswirken.
Ich habe viel Diskussion über die Tatsache gesehen , dass - wenn die Parameter von Maximum - Likelihood von den geschätzten werden binned Daten - Sie 1 df pro geschätzten Parameter verlieren (ein Problem nach rechts zurück zu Fisher vs Karl Pearson Datierung) - aber ich weiß nicht mehr , Lesen Sie alles über das Finden der Bin-Grenzen anhand der Daten. (Wenn Sie sie aus den nicht eingeteilten Daten abschätzen, liegt bei Bins die Verteilung der Teststatistik irgendwo zwischen a und a .)
Hat diese datenbasierte Auswahl von Behältern einen wesentlichen Einfluss auf das Signifikanzniveau oder die Leistung? Gibt es Ansätze, die wichtiger sind als andere? Wenn es einen großen Effekt gibt, ist es etwas, das in großen Samples verschwindet?
Wenn es einen wesentlichen Einfluss hat, scheint dies die Verwendung eines Chi-Quadrat-Tests zu erschweren, wenn Parameter unbekannt sind, die in vielen Fällen fast unbrauchbar sind (obwohl sie in einigen Texten immer noch empfohlen werden), es sei denn, Sie hatten ein gutes a -priori Schätzung des Parameters.
Eine Diskussion der Themen oder Hinweise auf Verweise (vorzugsweise unter Erwähnung ihrer Schlussfolgerungen) wäre nützlich.
Bearbeiten, so ziemlich abgesehen von der Hauptfrage:
Es fällt mir ein, dass es für den speziellen Fall des Exponentials * (und der Uniform) mögliche Lösungen gibt, aber ich bin immer noch an der allgemeineren Frage der Auswirkung bei der Auswahl der Behältergrenzen interessiert.
* Für das Exponential könnte man zum Beispiel die kleinste Beobachtung verwenden (sagen wir, sie ist gleich ), um eine sehr grobe Vorstellung davon zu bekommen, wo die Fächer zu platzieren sind (da die kleinste Beobachtung mit dem Mittelwert exponentiell ist ), und Testen Sie dann die verbleibenden Differenzen ( ) auf Exponentialität. Dies könnte natürlich zu einer sehr schlechten Schätzung von und damit zu einer schlechten Auswahl von Behältern führen, obwohl man das Argument vermutlich rekursiv verwenden könnte, um die niedrigsten zwei oder drei Beobachtungen zu treffen, aus denen man vernünftige Behältern auswählen und dann die Unterschiede von testen kann die übrigen Beobachtungen über der größten dieser Statistiken kleinster Ordnung für Exponentialität)μ / n n - 1 × i - m μ