Ich sammle jeden Tag sehr große Stichproben (> 1.000.000) von kategorialen Daten und möchte, dass die Daten zwischen den Tagen "signifikant" unterschiedlich aussehen, um Fehler bei der Datenerfassung zu erkennen.
Ich dachte, ein guter Fit-Test (insbesondere ein G-Test) wäre eine gute Passform (Wortspiel beabsichtigt) dafür. Die erwartete Verteilung ergibt sich aus der Verteilung des Vortages.
Aber weil meine Stichproben so groß sind, hat der Test eine sehr hohe Leistung und gibt viele falsch positive Ergebnisse ab. Das heißt, selbst eine sehr geringe tägliche Schwankung ergibt einen p-Wert nahe Null.
Am Ende multiplizierte ich meine Teststatistik mit einer Konstanten (0,001), was die gute Interpretation der Datenabtastung mit dieser Rate bietet. Dieser Artikel scheint mit diesem Ansatz übereinzustimmen. Sie sagen, dass:
Das Chi-Quadrat ist mit Stichproben von etwa 100 bis 2500 Personen am zuverlässigsten
Ich bin auf der Suche nach weiteren maßgeblichen Kommentaren zu diesem Thema. Oder vielleicht alternative Lösungen für falsch-positive Ergebnisse, wenn Sie statistische Tests mit großen Datenmengen durchführen.