Beurteilung der Bedeutung von Verteilungsunterschieden


21

Ich habe zwei Datengruppen. Jeweils mit unterschiedlicher Verteilung mehrerer Variablen. Ich versuche festzustellen, ob sich die Verteilungen dieser beiden Gruppen statistisch signifikant unterscheiden. Ich habe die Daten sowohl in Rohform als auch in einfacher zu verarbeitenden diskreten Kategorien mit Häufigkeitszählern zusammengefasst.

Welche Tests / Verfahren / Methoden sollte ich verwenden, um festzustellen, ob sich diese beiden Gruppen erheblich unterscheiden, und wie kann ich das in SAS oder R (oder Orange) tun?


2
Interessieren Sie sich dafür, ob die Verteilungen eine andere Form haben (z. B. Normalverteilung, Poissonverteilung usw.) oder ob sich die Parameter unterscheiden (z. B. Mittelwert oder SD einer Normalverteilung) oder beides?
Jeromy Anglim

Antworten:


15

Ich glaube, dass dies einen Kolmogorov-Smirnov-Test mit zwei Stichproben oder ähnliches erfordert. Der Kolmogorov-Smirnov-Test mit zwei Stichproben basiert auf dem Vergleich der Unterschiede in den empirischen Verteilungsfunktionen (ECDF) von zwei Stichproben, was bedeutet, dass er sowohl auf den Ort als auch auf die Form der beiden Stichproben anspricht. Es wird auch auf eine multivariate Form verallgemeinert.

Dieser Test ist in verschiedenen Formaten in verschiedenen Paketen in R enthalten. Wenn Sie also im Wesentlichen über ausreichende Kenntnisse verfügen, müssen Sie nur einen dieser Tests installieren (z. B. fBasics ) und ihn auf Ihren Beispieldaten ausführen.


5
Für R ks.test im Standardpaket "stats" kann der KS-Test ohne Installation zusätzlicher Pakete durchgeführt werden.
Russellpierce

In SAS ist der KS-Test in verfügbar proc npar1way. In R ks.test()gibt es zusätzlich das nortestPaket, das mehrere andere Anpassungstests bereitstellt.
Chl

8

Ich werde die dumme Frage des Beraters stellen. Warum möchten Sie wissen, ob sich diese Verteilungen statistisch signifikant unterscheiden?

Handelt es sich bei den von Ihnen verwendeten Daten um repräsentative Stichproben aus Populationen oder Prozessen, und möchten Sie den Nachweis erbringen, dass sich diese Populationen oder Prozesse unterscheiden? Dann ist ein statistischer Test genau das Richtige für Sie. Aber das scheint mir eine seltsame Frage zu sein.

Oder interessiert es Sie, ob Sie sich wirklich so verhalten müssen, als ob diese Populationen oder Prozesse unabhängig von der Wahrheit unterschiedlich sind? Dann ist es besser, eine Verlustfunktion zu bestimmen, im Idealfall eine, die für Sie aussagekräftige Einheiten zurückgibt, und den erwarteten Verlust vorherzusagen, wenn Sie (a) die Populationen als unterschiedlich behandeln und (b) sie als gleich behandeln. Oder Sie können ein Quantil der Verlustverteilung wählen, wenn Sie eine mehr oder weniger konservative Position einnehmen möchten.


Ihr Tonfall ist ein wenig verschnupft und herablassend ... aber Sie haben Recht, ich glaube, was ich wirklich wollte, war, ob ich vernünftigerweise davon ausgehen kann, dass die beiden Distributionen gleich sind oder nicht.
Jay Stevens

3
Tut mir leid, dass du meinen Ton nicht magst. Wenn Sie wissen möchten, ob Sie vernünftigerweise davon ausgehen können, dass die beiden Verteilungen identisch sind, führt Sie der KS in die Irre, da er die Nullhypothese testet, dass die beiden Verteilungen identisch sind.
Andrew Robinson

5

Möglicherweise möchten Sie relative Verteilungsmethoden anwenden. Nennen Sie eine Gruppe die Referenzgruppe und die andere die Vergleichsgruppe. Ähnlich wie beim Erstellen eines Wahrscheinlichkeits-Wahrscheinlichkeits-Diagramms können Sie ein relatives CDF / PDF erstellen, bei dem es sich um ein Verhältnis der Dichten handelt. Diese relative Dichte kann zur Schlussfolgerung herangezogen werden. Wenn die Verteilungen identisch sind, erwarten Sie eine einheitliche relative Verteilung. Es gibt grafische und statistische Werkzeuge, um Abweichungen von der Einheitlichkeit zu untersuchen und zu untersuchen.

Ein guter Ausgangspunkt, um ein besseres Verständnis zu erlangen, ist das Anwenden relativer Verteilungsmethoden in R und des reldist- Pakets in R. Weitere Informationen finden Sie in dem Buch Relative Verteilungsmethoden in den Sozialwissenschaften von Handcock und Morris. Es gibt auch einen Artikel der Autoren, der die relevanten Techniken behandelt.


2

Ein Maß für die Differenz zwischen zwei Verteilungen ist das Kriterium der "maximalen mittleren Diskrepanz", das im Grunde genommen die Differenz zwischen den empirischen Mitteln der Proben aus den beiden Verteilungen in einem reproduzierenden Kernel-Hilbert-Raum (RKHS) misst. Siehe dieses Dokument "Eine Kernel-Methode für das Zwei-Beispiel-Problem" .


Diese Methode ist meiner Meinung nach am robustesten, aber nicht gut bekannt, da sie genauso gut funktioniert, wenn Sie eine endliche Stichprobe für Ihre Verteilung haben (und daher Ihre Stichprobenverteilungen nicht vollständig kontinuierlich sind). Es funktioniert auch mit multinomialen Distributionen, die
meines Wissens

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.