Friedmans Test ist sehr signifikant, aber seine Post-hoc-Vergleiche (SPSS) sind nicht signifikant


7

Ich habe einen nicht parametrischen Friedman-Test für meine Daten in SPSS 22 durchgeführt und die Null signifikant abgelehnt. Das würde bedeuten, dass unter den gepaarten Proben (in meinem Fall 3) mindestens zwei Proben mit ungleichen Verteilungen nachgewiesen werden sollten - eine ist tendenziell größer als die andere. Also, post hoc - Vergleiche sind gerechtfertigt.k

Wenn ich jedoch die in SPSS integrierten post-Friedman-Post-Hoc-Paar-Mehrfachvergleiche weiterführe , die gemäß dieser SPSS-Anmerkung auf Dunns (1964) Ansatz mit der Bonferroni-Korrektur basieren, erhalte ich für alle Paare keine Signifikanz . Die Omnibus-Friedman-Signifikanz war sehr überzeugend ( ), aber die Ergebnisse paarweiser Post-hoc-Tests sind selbst für Zahlen ohne Bonferroni-Anpassung nicht signifikant.p=0.002

Geben Sie hier die Bildbeschreibung ein Geben Sie hier die Bildbeschreibung ein

Wieso ist es so? Mache ich es falsch oder ist SPSS?
Was ist der richtige paarweise Post-Hoc-Post-Hoc-Test nach Friedman?

Der Beispieldatensatz ist hier als SPSS-Daten oder wie im Folgenden angegeben verfügbar :

V1  V2  V3
5   5   5
4   4   5
5   3   5
4   5   5
5   5   5
5   5   5
5   5   4
5   5   5
5   5   4
5   5   5
5   5   5
4   4   4
4   4   4
4   5   5
3   3   3
4   4   5
3   5   2
5   5   5
3   3   5
4   4   4
5   5   5
5   4   5
5   5   5
5   5   5
4   4   5
5   5   5
5   5   5
5   4   5
5   5   5
5   5   5
4   4   4
4   4   4
5   5   5
4   4   4
4   5   4
5   5   5
4   4   4
4   4   4
4   5   4
5   5   5
5   5   5
5   5   5
5   4   4
5   5   5
4   5   5
5   5   5
5   5   5
5   5   5
5   5   5
4   4   4
5   5   4
5   5   5
5   5   4
5   4   4
5   5   5
4   4   4
4   4   4
5   4   3
5   5   4
4   5   4
5   5   5
5   5   5
4   4   4
5   5   4
5   4   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   4   5
5   5   5
5   5   5
5   4   5
5   5   5
5   5   5
5   5   4
4   4   4
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   4   5
5   5   5
5   5   5
5   5   5
4   4   3
4   4   4
5   5   4
4   4   5
4   5   4
4   3   4
4   4   4
4   4   4
4   4   4
5   4   4
5   4   4
2   2   3
4   4   5
4   4   4
5   4   5
4   4   3
4   4   4
4   4   5
5   2   5
4   3   5
4   4   4
4   5   4
4   4   4
4   5   5
5   5   5
5   5   5
4   5   4
5   3   5
5   5   5
5   4   5
5   3   5
2   3   5
5   5   5
5   5   5
4   4   4
5   5   4
4   5   5
5   5   5
5   5   5
3   4   4
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   4
5   5   5
5   5   5
5   5   3
5   5   3
5   5   5
5   5   3
5   5   4
5   5   3
5   5   3
5   5   5
5   5   5
5   5   3
5   5   4
5   5   3
5   5   5
5   5   3
5   5   5
5   5   3
5   5   4
5   5   5
5   5   5
4   4   4
4   4   4
3   4   4
4   5   5
3   5   4
3   5   4
5   5   5
3   3   4
5   5   5
5   5   5
5   5   4
4   4   4
4   4   4
4   4   4
5   5   5
3   2   4
3   2   4
4   4   5
5   5   5
3   1   2
5   4   1
5   4   5
5   5   5
5   4   3
4   5   4
2   3   5
3   2   1
3   2   2
5   5   5
4   4   5
5   5   1
5   3   3
3   3   4
5   3   4
4   5   5
5   4   3
5   1   4
4   2   2
4   4   2
5   2   1
4   4   5
5   3   5
5   3   5
2   5   4
4   3   4
5   4   4
5   2   1
5   4   2
3   1   5
4   4   5
5   4   2
3   4   1
5   3   2
5   4   5
4   1   5
5   4   5
4   3   5
5   4   5
4   5   5
5   4   4
5   2   2
4   5   4
4   4   5
5   5   3
4   5   4
5   4   4
5   4   4
5   5   5
4   4   4
5   5   5
5   4   3
5   5   5
5   5   5
5   4   5
5   5   5
5   5   5
5   5   5
5   5   5
4   5   5
5   4   4
5   5   5
4   4   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
2   4   5
4   4   4
5   4   4
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
4   4   4
5   5   5
4   5   4
5   4   5
5   5   4
5   4   4
5   5   5
5   2   3
5   2   2
5   2   1
1   1   1
4   4   3
4   4   4
5   4   4
5   5   4
5   4   5
5   4   3
3   5   5
4   3   4
4   3   4
4   4   5
4   4   3
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
4   4   4
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
4   4   4
5   5   5
5   5   5
5   5   5
5   5   5
4   4   4
4   4   4
5   5   5
5   5   4
4   5   5
5   4   4
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
4   4   5
2   4   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
4   4   4
5   5   5
5   5   5
5   4   4
5   4   4
5   5   5
5   5   5
4   5   4
4   4   4
4   3   4
4   4   3
5   4   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   4   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
4   5   5
5   5   5
4   5   4
5   5   5
1   5   4
5   4   5
5   5   5
5   5   5
4   4   4
4   2   5
5   5   5
3   4   5
5   5   5
4   4   4
5   4   4
5   4   5
5   5   5
4   3   4
4   4   4
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5
5   5   5

Für mich ist es in der Tat ziemlich seltsam. Angesichts der so starken Gesamttest-Signifikanz .002wird erwartet, dass sich mindestens ein Paar intuitiv signifikant unterscheidet. In jedem Fall sollte es so sein V1-V2. Der Vorzeichentest , von dem Friedman als Erweiterung angesehen werden kann, zeigt (nachdem die Werte innerhalb jedes Befragten wie im Friedman-Test eingestuft wurden), dass das Paar von V1-V2hoher Bedeutung ist. Ich bin ein bisschen verwirrt und sollte sitzen und versuchen, dem SPSS-Algorithmus-Dokument zu folgen.
ttnphns

1
Weil Sie verschiedene Hypothesen mit unterschiedlichen Verfahren testen. Äpfel und Orangen.
Russ Lenth

1
@ttnphns paarweise Post-Hoc-Tests müssen nicht unbedingt in irgendeiner Weise "falsch" sein und haben dennoch keine Ablehnung, wo der ursprüngliche Test dies tut, da der Omnibus-Test nicht aus dem kleinsten paarweisen p-Wert besteht. Diese Eigenschaft von paarweisen Tests im Vergleich zu einem Omnibus-Test wird in allen Arten von Permutationen in Fragen hier im Lebenslauf untersucht. Beispiel: Beginnen Sie mit einem paarweisen Verfahren und einem einzelnen Gruppenpaar, das damit verglichen wird, wobei der Vergleich nicht ganz signifikant ist. Rufen Sie die untere Gruppe und die obere Gruppe . Konstruieren Sie nun eine große Anzahl ähnlicher Paare ... (ctd)A1B1
Glen_b - Monica

1
@ttnphns Das würde teilweise davon abhängen, was genau Sie unter "richtig" und "richtig" verstehen - und das hängt wiederum davon ab, auf welchen Eigenschaften man für das Post-hoc besteht. Die Tatsache, dass es selbst im einfachen Fall von Einwegvergleichen mit normaler Theorie eine Reihe von Post-hoc-Tests gibt, zeigt, dass diese Überlegungen nicht unbedingt offensichtlich sind. Aufgrund von Nemenyi gibt es ein Verfahren, das manchmal bei Friedman angewendet wird (aber ich weiß nicht, dass es nach allen Kriterien unbedingt als richtig / korrekt gelten würde). PB Nemenyi (1963) Verteilungsfreie Mehrfachvergleiche , Doktorarbeit, Princeton University
Glen_b -Reinstate Monica

2
@ttnphns Laut Wikipedia (an das ich gerade erst gedacht habe) heißt es, dass dieser Ansatz manchmal als "Nemenyi-Damico-Wolfe-Dunn-Test" bezeichnet wird ... daher kann Dunns Name auch an eine Version angehängt werden dieses Verfahrens.
Glen_b -State Monica

Antworten:


7

SPSS-Algorithmen geben an, dass sie bei paarweisen Vergleichen nach dem Friedman-Test das Dunn- Verfahren (1964) verwenden. Ich habe das Originalpapier von Dunn nicht gelesen, daher kann ich nicht sagen, ob SPSS es korrekt befolgt - aber ich habe gerade Friedmans Test und seine post-hoc paarweisen Vergleiche gemäß der obigen Dokumentation zu SPSS-Algorithmen programmiert und das bestätigt Es gibt keinen Fehler und meine Ergebnisse waren identisch mit der SPSS-Ausgabe und dem OP, die in der Frage angezeigt wurden. (Siehe meinen Code hier ).

Nach dem Dunn-Ansatz (wie SPSS ihn durchführt) ist die Teststatistik einfach die Differenz der Mittelwerte der beiden verglichenen Stichproben (Variablen), die Differenz, nachdem die Werte innerhalb von Fällen in Ränge umgewandelt wurden . (Es sind die Ränge, die aus Friedmans Testberechnungen übrig geblieben sind, dh die Rangfolge der [ in unseren Beispieldaten] -Werte in jedem Fall mit der mittleren Rangzuweisung für Bindungen.) Der St.-Fehler der Statistik ist . Es teilt die Teststatistik, um eine standardisierte Statistik die in st eingesteckt ist. Normalverteilung, um die (Bonferroni noch unkorrigierte) 2-seitige Bedeutung zu erhalten.kk=3k(k+1)/.(6n)Z.

Dieser Vergleichstest sieht sehr konservativ aus. Das Paar wurde nicht V1-V2als bedeutsam gelobt : Z=1.838, p=.066Trotzdem ist der Omnibus Friedman von großer Bedeutung : p=.002. Im Gegensatz dazu hat der Vorzeichentest für ein Paar V1-V2(er ist der gleiche, unabhängig davon, ob Sie ihn für die Rohwerte oder für die von Friedman verbleibenden Ränge durchführen) Z=3.575, p=.0004.

Ein Grund, warum der SPSS "Dunns Ansatz" ziemlich konservativ ist, ist sein st. Fehlerformel, die alle , nicht 2 Variablen berücksichtigt .k

Ein weiterer Grund, warum es so weniger leistungsfähig ist als der Sign-Test, besteht darin, dass es sich auf alle Fälle stützt , einschließlich der Fälle mit Bindungen, während der Sign-Test Fälle mit Bindungen verwirft . und es gibt viele Fälle mit Bindungen in unseren Daten. Das Problem der Leistung in Verbindung mit der Behandlung von Bindungen in Tests wie Sign wurde beispielsweise in dieser Frage / Antwort beobachtet .n

Ich nahm V1und V2löste sie für Fälle mit Bindungen auf zufällige Weise (durch Hinzufügen von negativem oder positivem Rauschen) und berechnete den Vorzeichentest (jetzt natürlich basierend auf allen Fällen). 500 solcher Versuche gaben mir , was jetzt weit entfernt und viel näher auf dem Weg des Konservatismus zu den beobachteten Dunns ist .nmean Z=1.927Z=3.575Z=1.838

Ich bin mit den paarweisen Vergleichen von SPSS "Dunn" unzufrieden, da sie zu konservativ / schwach sind. Wir gehen davon aus, dass Post-hoc-Tests, wenn ein Omnibus-Test von Bedeutung ist, dies häufig, wenn nicht sogar jemals bestätigen werden. In unserem Beispiel konnte selbst der Bonferroni-unkorrigierte p-Wert die Omnibus-Schlussfolgerung nicht stützen.

Ist SPSS überhaupt richtig, wenn es darum geht, den "Dunn-Ansatz" (ursprünglich für Kruskal-Wallis vorgeschlagen; siehe auch diese Frage / Antwort) für Friedman-Post-hoc-Tests anzuwenden? Ich kann nicht sagen, dass ich kaum ein Experte für Mehrfachvergleiche bin. Ich würde jemanden, der es weiß, ermutigen , eine wirklich hilfreiche Antwort auf diesen Thread zu kommentieren oder zu posten.


PS Ich bin mir ziemlich bewusst, dass der Friedman-Test zwar als Erweiterung des Sign-Tests von 2 auf Proben (Variablen) angesehen werden kann, ein paarweiser Post-Hoc- Test nach Friedman jedoch nicht genau der Sign-Test ist und sein sollte. Es wäre auch kein Wilcoxon-Paired-Samle-Test. Der "Dunn-Ansatz" (wenn er an die Situation mit gepaarten Stichproben angepasst ist) erscheint post hoc plausibel, da er ohne weitere Rangfolge die bei Friedman erhaltenen "horizontalen" Ränge vergleicht und alle Stichproben widerspiegelt . Was mich jedoch störte, war, dass der Ansatz im Beispiel des Beitrags überkonservativ wirkte.kk


Späterer Zusatz. Für mich ist Dunns Ansatz, wie er nach Friedmans Test in SPSS implementiert wird, falsch . Es passt sich nicht auf die gleiche Weise an Bindungen an wie der Eltern-Omnibus-Test (Friedman). Eigentlich passt es sich überhaupt nicht an die Krawatten an, während es sollte. (Das Problem der Krawattenbehandlung wird in der aktuellen Antwort oben angesprochen.)

Die Formel der Friedman-Teststatistik (erklärt in SPSS-Algorithmen ) lautet

χ2=[12/.(nk(k+1))]]kC.2- -3n(k+1)1- -ΣT./.[nk(k2- -1)]]

Der Nenner der Formel enthält die Anpassung für Bindungen. Wenn dann ist die Menge der Anteil der Fälle, in denen die beiden Variablen gleich sind (gebunden).k=2ΣT./.[nk(k2- -1)]]

Betrachten Sie den Friedman-Test, der mit unseren Variablen V1und V2( ) durchgeführt wurde. Der Anteil der Fälle mit Bindungen ist und die Teststatistik ist von Bedeutung . Aber der "Dunn's" -Vergleich, der nach SPSS-Formeln berechnet wird, wird seink=2287/400=.717513.460, df=1p=.00024

Sample1  Sample2  MeanRank1 MeanRank2 TestStat  StError   Z    Sig2side  AdjSig
  V1       V2      1.54875   1.45125   .0975     .0500  1.9500  .05118  .05118

Nicht signifikant. Warum? Es wurde keine ordnungsgemäße Anpassung (Friedman-Stil) für Krawatten vorgenommen.

Bei nur Stichproben in Daten muss ein korrekter paarweiser Post-Hoc-Vergleichstest das gleiche Ergebnis (Statistik und p-Wert) wie der Omnibus-Test liefern - es ist tatsächlich eine Eigenschaft, die beweist, dass der Post-Hoc-Test übereinstimmt (ist) isomorph) zum übergeordneten Omnibus-Test. Dies ist in der Tat beim Kruskal-Wallis-Test und beim Dunn-Test der Fall. Programmieren Sie ihn einfach nach den SPSS-Algorithmen und testen Sie ihn mit und als zwei unabhängige Gruppen. Sie erhalten ihn sowohl für KW als auch für Dunn. Wir haben jedoch gesehen, dass eine ähnliche Äquivalenz in den Beziehungen zwischen dem Friedman-Test und dem Post-Friedman-Vergleichstest "Dunns Ansatz" fehlt.k=2V1V2p=.0153

Fazit . Post-hoc-Mehrfachvergleichstest, der von SPSS (Version 22 und früher) durchgeführt wird, nachdem Friedmans Test fehlerhaft ist. Vielleicht ist es richtig, wenn es keine Bindungen gibt, aber ich weiß es nicht. Der Post-hoc-Test behandelt Bindungen nicht so, wie Friedman es tut (solange es sein sollte). Ich kann nichts über die Formel von st sagen. Fehler, den sqrt[k*(k+1)/(6n)]sie verwenden: Es wurde aus einer diskreten gleichmäßigen Verteilung abgeleitet, aber sie haben nicht geschrieben, wie; ist es richtig? Entweder wurde der "Dunn-Testansatz" von SPSS unzureichend an Friedman angepasst, oder Dunns Test kann überhaupt nicht an Friedman angepasst werden.


2
+1, aber im Allgemeinen bezweifle ich, dass der gleiche Test sowohl für Kruskal-Wallis als auch für Friedman sinnvoll als Post-hoc-Test verwendet werden kann, da KW "ungepaart" und Friedman "gepaart" ist (oder eher wiederholte Maßnahmen / innerhalb). Themen). Friedman sollte viel mächtiger sein als KW. Wenn Dunn diesen Aspekt "gepaart / wiederholt / innerhalb" ignoriert, muss er viel Kraft verlieren. (Ich weiß nicht, ob es es ignoriert.)
Amöbe

1
Ich würde eher zustimmen. Nun, vielleicht könnte die allgemeine Idee von Dunns Test als Post-hoc-Friedman verwendet werden (SPSS hat nicht vergessen, dass es sich jetzt um ein Problem mit gepaarten Stichproben handelt), aber es in der Behandlung mit Friedman isomorph zu machen. In meiner Antwort stellte ich fest, dass SPSS dies anscheinend vergessen hat.
ttnphns

1
Ich habe mich nicht mit dem Thema Krawatten befasst. Es mag auch dort eine Inkonsistenz geben, aber es scheint mir, dass diese wiederholte / nicht wiederholte Inkonsistenz eine zusätzliche ist. Beachten Sie, dass das Zeichen Test ist gepaart!
Amöbe

3

Ich fand (über eine ResearchGate-Frage ) viele gute Sachen in der Vignette für das PMCMR-Paket (das jetzt zugunsten von abgelehnt wird PMCMRplus), einschließlich Post-hoc-Tests von Nemenyi (1963) und Conover (1999) . Die Vignette (unter Berufung auf Conover, 1999 ) behauptet, dass der Quadetest leistungsfähiger ist als der Friedman-Test, wennk<5und ein Post-hoc-Test dafür ist auch in diesen Paketen implementiert. Die paarweisen Vergleiche scheinen ein zufriedenstellenderes Ergebnis zu liefern, das mit dem Omnibus-Test übereinstimmt.

Beachten Sie auch einige der unten angegebenen Einschränkungen bezüglich des Friedman-Tests . Nach dieser Logik habe ich reguläre alte Tukey-Post-Hocs für eine ANOVA mit wiederholten Messungen von rangtransformierten Daten verwendet. Dies erfordert etwas mehr Aufwand in Bezug auf R-Code, sollte jedoch in SPSS einfach sein. Stellen Sie einfach sicher, dass Sie die Rangtransformation auf einem großen Vektor durchführen, der alle wiederholten Kennzahlen auf einmal zusammenfasst, anstatt jede Kennzahl unabhängig voneinander zu rangtransformieren (Dies verursachte kürzlich ein Problem für einen meiner Mitarbeiter)! Die Ergebnisse dieser Methode scheinen auch in Niksrs Fall zufriedenstellend zu sein (siehe unten).

Zitat aus dem Weblog von T. Baguley, Vorsicht vor dem Friedman-Test!

Die Ränge für den Friedman-Test hängen nur von der Reihenfolge der Ergebnisse innerhalb jedes Teilnehmers ab - sie ignorieren die Unterschiede zwischen den Teilnehmern vollständig. Dies unterscheidet sich erheblich vom Wilcoxon-Test, bei dem Informationen über die relative Größe der Unterschiede zwischen den Teilnehmern erhalten bleiben. Zimmerman und Zumbo (1993) ... erklären, dass der Friedman-Test ... nicht wirklich eine Form der ANOVA ist, sondern eine Erweiterung des Vorzeichentests ...

Dies ist eine schlechte Nachricht, da der Vorzeichentest im Vergleich zum gepaarten Test tendenziell eine geringe Leistung aufweist tTest oder Wilcoxon Sign Rank Test. In der Tat ist die asymptotische relative Effizienz relativ zur ANOVA des Friedman-Tests.955J./.(J.+1) wo J.ist die Anzahl der wiederholten Messungen (siehe Zimmerman & Zumbo, 1993). Somit ist es ungefähr .72 fürJ.=3 und .76 für J.=4Dies bedeutet einen ziemlich großen Leistungseinbruch im Vergleich zu ANOVA, wenn die Annahmen erfüllt sind. Dies ist eine große Stichprobengrenze, aber kleine Stichproben sollten auch erheblich weniger Leistung haben, da der Vorzeichentest und der Friedman-Test tatsächlich Informationen wegwerfen. Die zusätzliche Robustheit des Vorzeichentests kann manchmal seine Anwendung rechtfertigen (da er Wilcoxon bei Verteilungen mit schwerem Schwanz übertreffen kann), dies scheint jedoch beim Friedman-Test nicht der Fall zu sein. Wenn eine ANOVA mit wiederholten Einwegmessungen nicht geeignet ist, liefert die Rangtransformation gefolgt von ANOVA einen robusteren Test mit größerer statistischer Aussagekraft als der Friedman-Test.

Sicher genug, die rangtransformierte RMANOVA produziert eine kleinere pals der Friedman-Test in Niksrs Fall. Was das geeignete Post-hoc für einen Friedman-Test ist, frage ich mich immer noch. Verzeihen Sie das Fehlen einer endgültigen Antwort hier und kommentieren oder bearbeiten Sie es bitte frei, wenn Sie beim Sortieren der Auswahl helfen können - es scheint, dass es viele gibt . Mein Code unten zeigt die Ergebnisse der fünf Optionen PMCMRplusfür Niksr-Daten unter Verwendung der Standardeinstellungen fürpWertanpassungen. Beachten Sie, dass die Standardeinstellungen in den Tests unterschiedlich sind, was den Vergleich erschwert. Ich bin auch offen für Vorschläge / Änderungen, wenn identische Anpassungen in dieser Antwort nützlicher wären.

R-Code

library(foreign);library(PCMCRplus);library(car);library(lme4);library(multcomp)
CVd8a=read.spss(file.choose(),use.value.labels=T,max.value.labels=Inf,to.data.frame=T)
quade.test(as.matrix(CVd8a))                                  #this is in the stats package
quadeAllPairsTest(CVd8a)                                      #this requires PMCMRplus

CVd8L=stack(CVd8a);CVd8L$PID=rep(1:nrow(CVd8a),ncol(CVd8a))   #long format for RMANOVA in R
Anova(lmer(rank(values,'keep')~ind+(1|PID),CVd8L),3,'F')  #1-way RMANOVA, type 3 SS, F test
summary(glht(lmer(rank(values,'keep')~ind+(1|PID),CVd8L),mcp(ind='Tukey')))
cld(lsmeans(lmer(rank(values,'keep')~ind+(1|PID),CVd8L),'ind'))     #compact letter display

# Various Post hocs explicitly intended to follow the Friedman test:
frdAllPairsNemenyiTest(CVd8a)
frdAllPairsConoverTest(CVd8a)
frdAllPairsMillerTest(CVd8a)
frdAllPairsSiegelTest(CVd8a)
frdAllPairsExactTest(CVd8a)

Ausgabe (gekürzt)

Quade test
Quade F = 6.5769, num df = 2, denom df = 798, p-value = 0.001469

Pairwise comparisons using Quade's test with TDist approximation
   V1     V2    
V2 0.0034 -     
V3 0.0057 0.7832
P value adjustment method: holm

Analysis of Deviance Table (Type III Wald F tests with Kenward-Roger df)
                    F Df Df.res    Pr(>F)    
(Intercept) 1894.7708  1 830.45 < 2.2e-16 ***
ind            6.4579  2 798.00  0.001651 ** 

         Simultaneous Tests for General Linear Hypotheses
Multiple Comparisons of Means: Tukey Contrasts
Linear Hypotheses:
             Estimate Std. Error z value Pr(>|z|)   
V2 - V1 == 0  -49.311     14.934  -3.302  0.00292 **
V3 - V1 == 0  -43.006     14.934  -2.880  0.01127 * 
V3 - V2 == 0    6.305     14.934   0.422  0.90644   
(Adjusted p values reported -- single-step method)

 ind   lsmean       SE     df lower.CL upper.CL .group
 V2  581.9612 14.50235 830.45 553.4957 610.4268  1    
 V3  588.2662 14.50235 830.45 559.8007 616.7318  1    
 V1  631.2725 14.50235 830.45 602.8069 659.7381   2   
Degrees-of-freedom method: satterthwaite 
Results are given on the rank (not the response) scale. 
Confidence level used: 0.95 
P value adjustment: tukey method for comparing a family of 3 estimates 
significance level used: alpha = 0.05 

Nemenyi-Wilcoxon-Wilcox all-pairs test for a two-way balanced complete block design
   V1   V2  
V2 0.16 -   
V3 0.24 0.97
P value adjustment method: single-step

Conover's all-pairs test for a two-way balanced complete block design
   V1     V2    
V2 0.0039 -     
V3 0.0141 0.9155
P value adjustment method: single-step

Miller / Bortz et al. / Wike all-pairs test for a two-way balanced complete block design
   V1   V2  
V2 0.18 -   
V3 0.27 0.97
P value adjustment method: none

Siegel-Castellan all-pairs test for a two-way balanced complete block design
   V1   V2  
V2 0.20 -   
V3 0.22 0.82
P value adjustment method: holm

Eisinga, Heskes, Pelzer & Te Grotenhuis all-pairs test with exact p-values for a two-way
balanced complete block design
   V1   V2  
V2 0.21 -   
V3 0.22 0.82
P value adjustment method: holm

+1. Willkommen zurück (??) !
Amöbe

Ich würde gerne sein, wenn ich die Zeit finde! Ich habe den Lebenslauf verpasst und in der Zwischenzeit viel gelernt, gelegentlich nur durch einen Besuch. Es ist weniger, dass ich weg bin, als nur nicht in der Lage zu sein, einen Beitrag zu leisten, aber ich bin dankbar, dass so viele andere (wie Sie) es immer noch tun!
Nick Stauner

2

Ich habe Dunns Test mit dem dunn.testR-Paket durchgeführt, der Folgendes ergab:

> library(foreign, pos=14)

> Dataset <- read.spss("/Users/Friedman_Sample.sav", use.value.labels=TRUE, 
+   max.value.labels=Inf, to.data.frame=TRUE)

> colnames(Dataset) <- tolower(colnames(Dataset))

> library(relimp, pos=15)

> showData(Dataset, placement='-20+200', font=getRcmdr('logFont'), maxwidth=80, 
+   maxheight=30, suppress.X11.warnings=FALSE)

> local({
+   .Responses <- na.omit(with(Dataset, cbind(v1, v2, v3)))
+   cat("\nMedians:\n") 
+   print(apply(.Responses, 2, median)) 
+   friedman.test(.Responses)
+ })

Medians:
v1 v2 v3 
 5  5  5 

    Friedman rank sum test

data:  .Responses
Friedman chi-squared = 12.117, df = 2, p-value = 0.002338


> dunn.test(Dataset)
  Kruskal-Wallis rank sum test

data: Dataset and group
Kruskal-Wallis chi-squared = 6.8206, df = 2, p-value = 0.03


                        Comparison of Dataset by group                         
                                (No adjustment)                                
Col Mean-|
Row Mean |          1          2
---------+----------------------
       2 |  -2.399474
         |     0.0082
         |
       3 |  -2.092674   0.306799
         |     0.0182     0.3795

FTF, danke. Aber Kruskal-Wallis ist hier irrelavant, es ist ein Test mit unabhängigen Proben. Meiner Ansicht nach wird in diesem Thread stattdessen diskutiert , ob die Übernahme von Dunns Logik durch SPSS für paarweise Tests im Allgemeinen für eine Situation mit gepaarten Stichproben geeignet ist oder nicht. Wenn es im Allgemeinen in Ordnung ist, warum liefert es dann so seltsame Ergebnisse und wo kann SPSS einen Fehler in Details machen ?
ttnphns

1
@ttnphns, aber sind Sie sicher, dass SPSS tatsächlich "Dunns Logik auf die gepaarte Situation anwendet", anstatt einfach ungepaarte Standard-Dunns zu verwenden?
Amöbe

Ich dachte, dass Sie @ttnphns geschrieben haben: "Es wäre schön, wenn jemand anderes hier, der ein anderes Paket verwendet, vielleicht einen R-Benutzer, es testet, um die Ergebnisse mit den von Ihnen veröffentlichten SPSS-Ergebnissen zu vergleichen." Bin ich verwirrt?
FTF

1
@amoeba, dein ist ein guter Kommentar. Wie ich zu Beginn meiner Antwort auf diesen Thread sagte, habe ich Dunns Artikel (oder seine Erklärung) nicht gelesen, daher weiß ich es nicht und habe es nicht getestet, wenn SPSS es unverblümt auf Friedman dupliziert hat (was sich ändern würde) echte Gesichtspalme für sie) oder übernahm es (mit möglicherweise einem Fehler). Ich weiß nicht. Ich schrieb meine Antwort sofort nach dem Lesen der Frage und habe von Anfang an unbewusst geglaubt, dass SPSS sozusagen "immer richtig" ist. Also ich weiß es nicht. Der Thread handelt schließlich davon, was der richtige Weg ist .
ttnphns

@FTF, ich meinte keinen Hinweis auf Unhöflichkeit. Wieder fügt Ihre Antwort dem Bild Farbe hinzu; Vielen Dank. Ich sagte nur , dass wir Friedman Proben Test und mögliche post - hoc - Test für gepaarte erwägen sie .
ttnphns

0

Da die Frage ein Jahr vergangen ist, bin ich mir nicht sicher, ob Sie dieses Problem gelöst haben. Kürzlich bin ich auf die gleiche Verwirrung gestoßen, dass ich nach dem Friedman-Test in SPSS ein signifikantes Ergebnis habe, aber ich weiß nicht, woher die Bedeutung stammt, und es scheint, dass die spss den Post-Test von Dunnt nicht durchführen konnten.

Ich habe andere Ressourcen und statistische Informationen überprüft und meine Antwort lautet: Machen Sie sich zunächst keine Sorgen um Ihr vorheriges Ergebnis. Die Hypothese im Friedman ist nicht die Hypothese im Post-Test. Zweitens konnte der spss den Dunnt-Post-Test nicht durchführen, aber wir können den Wilcoxon-Signed-Rank verwenden. Die Einschränkung besteht darin, dass Sie Ihre Proben koppeln und die Bofferonie-Korrektur verwenden sollten, um den Typ-1-Fehler zu ermitteln.


1
Dies ist ein falscher Vorschlag - zur Verwendung von Wilcoxon. Friedman kann nicht als Omnibus-Erweiterung angesehen werden. Es ist eher eine Erweiterung des Sign-Tests. Siehe meine Antwort oben.
ttnphns

Oh ... ich werde Ihre Antwort genauer prüfen. Danke ..
Melinna

Sie kommentierten: "Während der Friedman-Test als Erweiterung des Sign-Tests angesehen werden kann ... der Post-hoc-Test ... wäre es auch kein Wilcoxon-Paired-Samle-Test." Es scheint jedoch, dass der übliche Weg, um mit diesem Problem umzugehen, die Verwendung des Wilcon-Sign-Tests ist, nachdem Sie in Friedman ein signifikantes Ergebnis erzielt haben. Ich habe dies sowohl in diesem Website- Link als auch in mehreren anderen Artikeln erfahren , siehe (Hinson, 2003). Ich streite dich nicht und ich hoffe wirklich, dass wir es herausfinden können, um den besten Weg zu finden, spss zu verwenden, aber keinen Code in R zu schreiben.
Melinna

Wenn meine Antwort falsch ist, würde ich sie löschen, damit sie andere nicht irreführt. :)
Melinna
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.