Anfängerfragen:
Ich möchte testen, ob zwei diskrete Datensätze von derselben Verteilung stammen. Ein Kolmogorov-Smirnov-Test wurde mir vorgeschlagen.
Conover ( Praktische nichtparametrische Statistik , 3d) scheint zu sagen, dass der Kolmogorov-Smirnov-Test für diesen Zweck verwendet werden kann, aber sein Verhalten ist bei diskreten Verteilungen "konservativ", und ich bin nicht sicher, was das hier bedeutet.
DavidRs Kommentar zu einer anderen Frage lautet: "... Sie können immer noch einen Level α-Test basierend auf der KS-Statistik durchführen, aber Sie müssen eine andere Methode finden, um den kritischen Wert zu erhalten, z. B. durch Simulation."
Die Version von ks.test () im dgof R-Paket ( article , cran ) fügt einige Funktionen hinzu, die in der Standardversion von ks.test () im Statistikpaket nicht vorhanden sind. Unter anderem enthält dgof :: ks.test diesen Parameter:
simulate.p.value: eine logische Angabe, ob p-Werte durch Monte-Carlo-Simulation berechnet werden sollen, nur für diskrete Anpassungstests.
Ist der Zweck von simulate.p.value = T, um das zu erreichen, was DavidR vorschlägt?
Auch wenn dies der Fall ist, bin ich mir nicht sicher, ob ich dgof :: ks.test wirklich für einen Test mit zwei Stichproben verwenden kann. Es sieht so aus, als ob es nur einen Test mit zwei Stichproben für eine kontinuierliche Verteilung gibt:
Wenn y numerisch ist, wird ein Test mit zwei Stichproben der Nullhypothese durchgeführt, dass x und y aus derselben kontinuierlichen Verteilung gezogen wurden.
Alternativ kann y eine Zeichenkette sein, die eine kontinuierliche (kumulative) Verteilungsfunktion (oder eine solche Funktion) oder eine ecdf-Funktion (oder ein Objekt der Klasse stepfun) benennt, die eine diskrete Verteilung ergibt. In diesen Fällen wird ein Test mit einer Stichprobe aus der Null ausgeführt, bei der die Verteilungsfunktion, die x erzeugt hat, die Verteilung y ist.
(Hintergrunddetails: Genau genommen sind meine zugrunde liegenden Verteilungen stetig, aber die Daten liegen in der Regel sehr nahe an einer Handvoll von Punkten. Jeder Punkt ist das Ergebnis einer Simulation und ist ein Mittelwert aus 10 oder 20 reellen Zahlen zwischen -1 und 1. Am Ende der Simulation liegen diese Zahlen fast immer in der Nähe von 0,9 oder -9. Daher gruppieren sich die Mittelwerte um einige Werte, und ich behandle sie als diskret. Die Simulation ist komplex, und ich habe keine Grund zu der Annahme, dass die Daten einer bekannten Verteilung folgen.)
Rat?