Wie wählen Sie die Anzahl der Fächer aus, die für einen Chi-Quadrat-GOF-Test verwendet werden sollen?

Ich arbeite an der Entwicklung eines Physiklabors zum radioaktiven Zerfall. Bei der Analyse der von mir entnommenen Probendaten stieß ich auf ein Statistikproblem, das mich überraschte.

Es ist bekannt, dass die Anzahl der Zerfälle pro Zeiteinheit durch eine radioaktive Quelle Poisson-verteilt ist. Das Labor arbeitet so, dass die Schüler die Anzahl der Zerfälle pro Zeitfenster zählen und dies dann viele Male wiederholen. Dann bündeln sie ihre Daten nach der Anzahl der Zählungen und führen einen Anpassungstest mit 1 geschätzten Parameter (dem Mittelwert) durch, um zu überprüfen, ob die Nullhypothese (die Daten werden aus einer Poisson-Verteilung mit der geschätzten gezogen) oder nicht Mittelwert) gilt. Hoffentlich bekommen sie einen großen p-Wert und kommen zu dem Schluss, dass die Physik tatsächlich funktioniert (yay). $\chi^2$

Ich bemerkte, dass die Art und Weise, wie ich meine Daten gruppierte, einen großen Einfluss auf den p-Wert hatte. Wenn ich zum Beispiel viele sehr kleine Fächer ausgewählt hätte (z. B. ein separates Fach für jede Ganzzahl: 78 Zählungen / min, 79 Zählungen / min usw.), hätte ich einen kleinen p-Wert erhalten und hätte die Nullhypothese ablehnen müssen . Wenn ich jedoch meine Daten in weniger Bins gruppierte (z. B. unter Verwendung der durch Sturges Regel angegebenen Anzahl von Bins: ), erhielt ich einen viel größeren p-Wert und lehnte die Nullhypothese NICHT ab . $1+log_{2}(N)$

Wenn ich meine Daten betrachte, sieht es extrem Poisson-verteilt aus (es stimmt fast perfekt mit meinen erwarteten Zählungen / Minuten überein). Das heißt, es gibt ein paar Zählungen in Behältern, die sehr weit vom Mittelwert entfernt sind. Das heißt, wenn ich die Statistik mit sehr kleinen Bins berechne , habe ich einige Begriffe wie: Dies führt zu einer hohen Statistik und damit zu einem niedrigen p-Wert. Wie erwartet verschwindet das Problem bei größeren Behälterbreiten, da der erwartete Wert niemals so niedrig wird. $\chi^2$

\frac{(O b s e r v e d - E x p e c t e d)^{2}}{E x p e c t e d} = \frac{(1 - 0.05)^{2}}{0.05} = 18.05

$\frac{(Observed-Expected)^2}{Expected} = \frac{(1-0.05)^2}{0.05}=18.05$

χ^{2}

$\chi^2$

Fragen:

Gibt es eine gute Faustregel für die Auswahl der Behältergrößen bei einem GOF-Test? $\chi^2$

Ist diese Diskrepanz zwischen den Ergebnissen für verschiedene Behältergrößen etwas, über das ich hätte Bescheid wissen müssen *, oder weist sie auf ein größeres Problem in meiner vorgeschlagenen Datenanalyse hin?

- Vielen Dank

* (Ich habe einen Statistikkurs in Undergrad belegt, aber das ist nicht mein Fachgebiet.)

chi-squared binning application

— Bunji
quelle

Scheint ein Problem mit der Empfindlichkeit und Spezifität zu sein, dh Sie erhalten Typ-II-Fehler, weil Ihre Messungen zu spezifisch sind.

— Jay Schyler Raadt

Eine zu spezifische Messung führt zu Fehlern des Typs II, eine zu empfindliche zu Fehlern des Typs I. Zum Beispiel könnte ein sehr spezifischer Grenzwert für einen IQ-Test dazu führen, dass ein Kind mit einem IQ von 70,1 keinen Anspruch auf Sonderpädagogik hat, während ein Kind mit einem IQ von 69,9 dies tut. Dies wäre ein Typ-II-Fehler, bei dem die Nullhypothese "Dieses Kind qualifiziert sich nicht" fälschlicherweise nicht zurückgewiesen wird. Daher ist eine empfindlichere Messung erforderlich, ein größeres Netz, obwohl ein zu großes Netz einen Typ-I-Fehler verursachen kann, bei dem die Nullhypothese fälschlicherweise verworfen wird.

— Jay Schyler Raadt

1. Die Chi-Quadrat-Näherung kann ziemlich schlecht sein, wenn Sie kleine erwartete Werte haben - aber Sie müssen auch keine konstante Bin-Breite haben (solange Sie sie nicht in Bezug auf die Werte der beobachteten Werte auswählen zählt). 2. " Hoffentlich bekommen sie einen großen p-Wert und kommen zu dem Schluss, dass die Physik tatsächlich funktioniert (yay). " - Ich gehe davon aus, dass Sie es bereits wissen, aber es sollte klargestellt werden: Wenn Sie die Null nicht ablehnen, wird dies nicht bestätigt null ist wahr; es deutet darauf hin, dass jede Abweichung von Poisson nicht groß genug war, um zuverlässig erkannt zu werden. ... ctd

— Glen_b -State Monica

OK, ich danke Ihnen allen für Ihre Aufmerksamkeit. @ Whuber, deine Antwort auf die andere Frage ist unglaublich. Würden Sie dann sagen, dass die Antwort auf meine erste Frage im Grunde nur "Nein" lautet - es gibt auf dieser Ebene keine gute Faustregel?

— Bunji

Es gibt viele Überlegungen. Ich denke, es kann einige nützliche Faustregeln geben. Zum Beispiel war ich normalerweise erfolgreich, indem ich die Verteilung der Zählungen erraten und Behälter erstellt habe, von denen erwartet wird, dass sie ungefähr die gleiche Anzahl von 5 oder mehr haben. Es ist jedoch selten, dass mehr als 20 Behälter benötigt werden. Manchmal suche ich nach Diskrepanzen innerhalb bestimmter Bereiche, wie z. B. der Verteilungsschwänze, und daher kann ich innerhalb dieser Bereiche engere Behälter erstellen, um detaillierte Unterschiede zu erkennen.

— whuber

Ist diese Diskrepanz zwischen den Ergebnissen für verschiedene Behältergrößen etwas, über das ich hätte Bescheid wissen müssen *, oder weist sie auf ein größeres Problem in meiner vorgeschlagenen Datenanalyse hin?

Das Binning des Probensatzes für radioaktiven Zerfall ist hier ein roter Hering. Das eigentliche Problem ergibt sich aus der Tatsache, dass Chi-Quadrat (neben anderen Hypothesentest-Frameworks) sehr empfindlich auf die Stichprobengröße reagiert. Im Fall von Chi-Quadrat werden absolute Unterschiede mit zunehmender Stichprobengröße zu einem immer kleineren Teil des erwarteten Wertes. Wenn die Stichprobengröße sehr groß ist, können wir daher kleine p-Werte und statistische Signifikanz finden, wenn die Ergebnisse klein und uninteressant sind. Umgekehrt kann eine einigermaßen starke Assoziation bei geringer Stichprobengröße nicht so signifikant sein.

Gibt es eine gute Faustregel für die Auswahl der Behältergrößen bei einem χ2-GOF-Test?

Die Antwort scheint, dass man nicht darauf abzielen sollte, das richtige N zu finden (ich bin nicht sicher, ob es machbar ist, aber es wäre großartig, wenn jemand anderes eingreift, um zu widersprechen), sondern nur dann über p-Werte hinausschauen sollte, wenn N hoch ist. Dies scheint ein gutes Papier zu diesem Thema zu sein: Too Big to Fail: Große Stichproben und das p-Wert-Problem

PS Es gibt Alternativen zum χ2-Test wie Cramers V- und G-Test ; Sie werden jedoch immer noch die gleichen Probleme mit großem N -> kleinem p-Wert haben.

— Zhubarb
quelle