Kolmogorov-Smirnov-


9

Ich verwende den Kolmogorov-Smirnov-Test mit zwei Stichproben, um Verteilungen zu vergleichen, und ich habe festgestellt, dass häufig ein p Wert als Teststatistik angegeben wird. Wie wird dieser p Wert bestimmt? Ich weiß, dass es die Wahrscheinlichkeit ist, ein Ergebnis zu erhalten, das mindestens so groß ist wie das erhaltene, aber wie wird dieser p Wert bestimmt, wenn dies ein nichtparametrischer Test ist? Das heißt, wir können keine Gaußschen Schwankungen in der Verteilung annehmen und den p Wert mit einem t Test berechnen .

Vielen Dank!


5
Die Kolmogorov-Smirnov-Statistik (über die Verteilungsklasse kontinuierlicher Zufallsvariablen) ist verteilungsfrei . Die Verteilung der Teststatistik hängt also nicht von der zugrunde liegenden Verteilung der Daten ab (unter der Nullhypothese).
Kardinal

2
@ Cardinals Punkt wird in einem Kommentar im Wikipedia-Eintrag gemacht . Beachten Sie, dass die Verteilung der Teststatistik asymptotisch ist (dh gültig, wenn die kleinere Stichprobengröße selbst groß ist). es wahrscheinlich ist , hängt von der gemeinsamen zugrunde liegenden Verteilung für kleine Proben.
whuber

@whuber: Ich fürchte, ich verstehe deinen Kommentar nicht ganz und möchte ihn nicht falsch interpretieren. Sicherlich ist die Verteilung in endlichen Stichproben nicht genau die gleiche wie die asymptotische Verteilung, aber dies verhindert nicht, dass die Statistik für jede feste Stichprobengröße (tatsächlich ( n 1 , n 2 ) verteilungsfrei ist , da die Größen unterschiedlich sein können ). [Fortsetzung]n(n1,n2)
Kardinal

5
@whuber: ... Sei und Y iG unabhängige iid-Sequenzen. Dann n F n ( x ) = | { i : X ix } | = | { i : F ( X i ) F ( x ) } | und n G n ( x ) = | {XiFYiGnF^n(x)=|{i:Xix}|=|{i:F(Xi)F(x)}|nG^n(x)=|{i:Yix}|=|{i:G(Yi)G(x)}|FGF=GU ( 0 , 1 )sup|F^n(x)G^n(x)|U(0,1)

1
@whuber: Ich denke, das sind zwei getrennte, aber subtil unterschiedliche Effekte. In gewissem Sinne mögen wir Asymptotik gerade deshalb, weil sie uns (oft) eine verteilungsfreie Statistik "im Grenzbereich" (aufgrund der CLT) liefert. Die Tatsache, dass der angegebene Wert unabhängig von der Verteilungsannahme ist, ist also nicht allzu bemerkenswert. Man könnte sich dann fragen, wozu eine verteilungsfreie Statistik gut ist, wenn ich ihre Verteilung für eine bestimmte Stichprobengröße nicht (einfach) berechnen kann und mich stattdessen auf eine asymptotische Näherung stützen muss. Was man zu gewinnen scheint, ist eine Version der einheitlichen Konvergenz. p
Kardinal

Antworten:


10

Unter der Nullhypothese ist die asymptotische Verteilung der Kolmogorov-Smirnov-Statistik mit zwei Stichproben die Kolmogorov-Verteilung mit CDF

Pr(Kx)=2πxi=1e(2i1)2π2/(8x2).

Die Werte können aus dieser CDF berechnet werden - siehe Abschnitt 4 und Abschnitt 2 der Wikipedia-Seite zum Kolmogorov-Smirnov-Test.p

Sie scheinen zu sagen, dass eine nicht parametrische Teststatistik keine Verteilung haben sollte - das ist nicht der Fall - was diesen Test nicht parametrisch macht, ist, dass die Verteilung der Teststatistik nicht davon abhängt, welche kontinuierliche Wahrscheinlichkeitsverteilung die Originaldaten sind komme aus. Beachten Sie, dass der KS-Test diese Eigenschaft auch für endliche Stichproben aufweist, wie durch @cardinal in den Kommentaren gezeigt.


3
(+1) Ich könnte eine kleine Änderung an Ihrem letzten Satz vorschlagen. Die Teststatistik ist selbst in endlichen Stichproben verteilungsfrei (obwohl sie nicht mit der asymptotischen Verteilung identisch ist). Diese verteilungsfreie Eigenschaft macht die Teststatistik also nichtparametrisch. Beachten Sie, dass es viele Beispiele gibt, bei denen die asymptotische Verteilung nicht von der zugrunde liegenden kontinuierlichen Verteilung abhängt (denken Sie nur an die CLT). Wenn ich mich also nicht irre, glaube ich nicht, dass dies das Kernmerkmal hier ist. :)
Kardinal

Ich habe die Korrektur vorgenommen, aber je mehr ich darüber nachdenke, desto mehr frage ich mich, woher Sie wissen, dass die Statistik wirklich nicht von der ursprünglichen Verteilung der Daten in endlichen Stichproben abhängt. Können Sie mehr zu diesem @ cardinal sagen?
Makro

Sicher. Siehe den vierten Kommentar (meinen dritten) zu der obigen Frage.
Kardinal

Aha! sehr cool und einfach - danke Kardinal
Makro

Niemand hat sich mit der Verteilung in kleinen Stichproben befasst, in denen wir die Permutationsverteilung der Statistik direkt berechnen können. Wenn wir Labels und Labels haben, können wir alle möglichen Ordnungen von ihnen aufschreiben (entsprechend den Werten, die alle vom kleinsten zum größten angeordnet sind), und es ist möglich, die KS-Statistik mit zwei Stichproben direkt daraus zu berechnen. In der Praxis kann der Algorithmus zum Finden eines p-Werts X n Y.m Xn Y
komplexer gestaltet werden,

0

Der p-Wert von beispielsweise 0,80 impliziert, dass 80% der Proben der Größe n von Proben aus der Population eine D-Statistik aufweisen, die geringer ist als die aus dem Test erhaltene. Dies wird basierend auf der D-Statistik des KS-Tests berechnet, die den maximalen Abstand zwischen den CDFs der theoretischen und empirischen Verteilung für die gegebene Verteilung misst, anhand derer die Probe bewertet wird.

Beachten Sie, dass nur der Wert D * SQRT (Stichprobengröße) eine Kolmogrov-Verteilung hat und nicht D selbst. Wenn Sie den p-Wert bei gegebenem D-Wert manuell berechnen möchten, können Sie die im Internet verfügbaren veröffentlichten Tabellen für die Kolomogrow-Verteilung heranziehen. Dies ist auch der Wert, der in Paketen wie R angegeben ist


Dies ist keine klar erläuterte Antwort.
Michael R. Chernick

Es ist eine Fortsetzung der vorherigen Antwort von Macro oben. Im Gegensatz zu dem, was von vielen angenommen wurde, ist der vom R-Paket berechnete p-Wert perfekt. Dies bedeutet, dass, wenn Sie jede mögliche Stichprobe einer bestimmten Größe aus der Population entnehmen und mit der theoretischen Verteilung vergleichen, der Wert von [maximaler Abstand D * SQRT (Stichprobengröße)], der für jede Stichprobe berechnet wird, eine Kolomogrov-Verteilung aufweist. Für eine gegebene D-Statistik gibt das R-Paket den Wert der Wahrscheinlichkeit an, dass die Stichprobe der gegebenen Differenz zur theoretischen Population gehört. 0,8 bedeutet, dass nur 20% ein höheres D haben
Murugesan Narayanaswamy
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.