Die Erklärung auf der Seite, auf die verwiesen wird, lautet
Unter der Nullhypothese ist die Wahrscheinlichkeit genau k / n simPr(P≤k/nsim)k/nsim wenn sowohl die Zufälligkeit in den Daten als auch die Zufälligkeit in der Simulation berücksichtigt werden.
Um dies zu verstehen, müssen wir uns den Code ansehen, dessen Schlüsselzeilen (erheblich abgekürzt) sind
fred <- function(x) {ks.test(...)$statistic} # Apply a statistical test to an array
d.hat <- fred(x) # Apply the test to the data
d.star <- apply(matrix(rnorm(n*nsim), n, nsim),
2, fred) # Apply the test to nsim simulated datasets
pval <- (sum(d.star > d.hat) + 1) / (nsim + 1)# Estimate a simulation p-value
Das Hauptproblem ist, dass der Code nicht mit dem Angebot übereinstimmt. Wie können wir sie versöhnen? Ein Versuch beginnt mit der letzten Hälfte des Zitats. Wir könnten das Verfahren so interpretieren, dass es die folgenden Schritte umfasst:
Collect unabhängig und identisch verteilten Daten gemäß irgendeinem Wahrscheinlichkeitsgesetz G . Wenden Sie eine Testprozedur t (implementiert im Code als ) an, um die Zahl T 0 = t ( X 1 , … , X n ) zu erzeugen.X1,X2,…,XnGtfred
T0=t(X1,…,Xn) .
Generieren via Computer vergleichbare Datensatz, die jeweils eine Größe n , entsprechend eine Nullhypothese mit Wahrscheinlichkeitsgesetz F . Wenden Sie t auf jeden solchen Datensatz an, um N Zahlen T 1 , T 2 , … , T N zu erzeugenN=nsimnFtNT1,T2,…,TN .
Berechnen Sie
P=(∑i=1NI(Ti>T0)+1)/(N+1).
(" " ist die Indikatorfunktion, die durch den vektorwertigen Vergleich im Code implementiert wird .) Die rechte Seite wird aufgrund der gleichzeitigen Zufälligkeit von T 0 (der tatsächlichen Teststatistik) und der Zufälligkeit von T als zufällig verstanden i (die simulierte Teststatistik). Id.star > d.hat
T0Ti
Zu sagen , dass die Daten an die Nullhypothese entsprechen ist zu behaupten , dass . Wählen Sie eine Testgröße α , 0 < α < 1 . Das Multiplizieren beider Seiten mit N + 1 und das Subtrahieren von 1 zeigt, dass die Wahrscheinlichkeit, dass P ≤ α für eine beliebige Zahl α ist, die Wahrscheinlichkeit ist, dass nicht mehr als ( N + 1 ) α - 1 des T i T 0 überschreitet . Dies sagt lediglich, dass T.F=Gα0<α<1N+11P≤αα(N+1)α−1TiT0T0liegt innerhalb der Spitze des sortierten Satzes aller N + 1 -Teststatistiken. Da (konstruktionsbedingt) T 0 unabhängig von allen T i ist , ist diese Chance , wenn F eine kontinuierliche Verteilung ist, der Bruchteil der Summe, die durch den ganzzahligen Teil ⌊ ( N + 1 ) α ⌋ dargestellt wird ; das heißt, Pr ( P ≤ α ) = ⌊ ( N + 1 ) α ⌋(N+1)αN+1T0TiF⌊(N+1)α⌋und es wird genau gleich sein, vorausgesetzt(N+1)αist eine ganze Zahlk; das heißt, wennα=k/(N+1).
Pr(P≤α)=⌊(N+1)α⌋N+1≈α
(N+1)αkα=k/(N+1)
Dies ist sicherlich eines der Dinge, die wir für jede Größe gelten wollen, die es verdient, als "p-Wert" bezeichnet zu werden: Sie sollte eine gleichmäßige Verteilung auf . Vorausgesetzt, N + 1 ist ziemlich groß, so dass jedes α nahe an einem Bruchteil der Form k / ( N + 1 ) = k / ( n sim + 1 ) liegt , ist dies[0,1]N+1αk/(N+1)=k/(nsim+1) nahezu eine gleichmäßige Verteilung. (Um mehr über die zusätzlichen Bedingungen zu erfahren, die für einen p-Wert erforderlich sind, lesen Sie bittePden Dialog, den ich zum Thema p-Werte gepostet habe. )
Offensichtlich sollte das Zitat " " anstelle von " n sim " verwenden, wo immer es erscheint.nsim+1nsim