Warum nehmen p-Werte und ks-Teststatistiken mit zunehmender Stichprobengröße ab? Nehmen Sie diesen Python-Code als Beispiel:
import numpy as np
from scipy.stats import norm, ks_2samp
np.random.seed(0)
for n in [10, 100, 1000, 10000, 100000, 1000000]:
x = norm(0, 4).rvs(n)
y = norm(0, 4.1).rvs(n)
print ks_2samp(x, y)
Die Ergebnisse sind:
Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508)
Ks_2sampResult(statistic=0.080000000000000071, pvalue=0.89375155241057247)
Ks_2sampResult(statistic=0.03499999999999992, pvalue=0.5654378910227662)
Ks_2sampResult(statistic=0.026599999999999957, pvalue=0.0016502962880920896)
Ks_2sampResult(statistic=0.0081200000000000161, pvalue=0.0027192461984023855)
Ks_2sampResult(statistic=0.0065240000000000853, pvalue=6.4573678008760032e-19)
Intuitiv verstehe ich, dass mit zunehmendem n der Test "sicherer" ist, dass die beiden Verteilungen unterschiedlich sind. Wenn die Stichprobengröße jedoch sehr groß ist, worum geht es bei Ähnlichkeitstests wie diesem und dem Anderson-Darling-Test oder dem t-Test, denn in solchen Fällen, in denen n sehr groß ist, werden die Verteilungen immer als gegeben befunden "deutlich anders!? Jetzt frage ich mich, was um alles in der Welt der Punkt der p-Werte ist. Es hängt so sehr von der Stichprobengröße ab ... Wenn p> 0,05 ist und Sie möchten, dass es niedriger ist, erhalten Sie einfach mehr Daten. und wenn p <0,05 ist und Sie möchten, dass es höher ist, entfernen Sie einfach einige Daten.
Wenn die beiden Verteilungen identisch wären, wäre die ks-Teststatistik 0 und der p-Wert 1. In meinem Beispiel deutet die ks-Teststatistik jedoch darauf hin, dass die Verteilungen mit zunehmender Zeit immer ähnlicher werden (abnimmt), wenn n zunimmt. , aber je nach p-Wert werden sie mit der Zeit immer unterschiedlicher (nehmen auch ab).