Wie man den Nemenyi-Post-Hoc-Test nach dem Friedman-Test richtig anwendet


11

Ich vergleiche die Leistung mehrerer Algorithmen für mehrere Datensätze. Da nicht garantiert wird, dass diese Leistungsmessungen normal verteilt sind, habe ich den Friedman-Test mit dem Nemenyi-Post-Hoc-Test basierend auf Demšar (2006) gewählt .

Ich fand dann ein anderes Papier, das nicht nur andere Methoden wie den Quade-Test mit anschließendem Shaffer-Post-hoc-Test vorschlägt, sondern auch den Nemenyi-Test anders anwendet.

Wie wende ich den Nemenyi-Post-Hoc-Test richtig an?

1. Verwenden Sie die Studentized Range-Statistik?

In Demšars Arbeit heißt es, die Nullhypothese (kein Leistungsunterschied zweier Algorithmen) abzulehnen, wenn der durchschnittliche Rangunterschied größer ist als der kritische Abstand CD mit

CD=qαk(k+1)6N

"wobei kritische Werte qα auf der Statistik des studentisierten Bereichs geteilt durch basieren2.""

Nach einigem Graben habe ich festgestellt, dass Sie diese "kritischen Werte" für bestimmte Alphas nachschlagen können, beispielsweise in einer Tabelle für α=0.05 für unendliche Freiheitsgrade (am Ende jeder Tabelle).

2. oder mit der Normalverteilung?

Gerade als ich dachte, ich wüsste, was zu tun ist, fand ich ein anderes Papier, das mich wieder verwirrte, weil sie nur die Normalverteilung verwendeten. Demšar sagt auf Seite 12 etwas Ähnliches:

z=(RiRj)k(k+1)6N
αα

In diesem Absatz sprach er über den Vergleich aller Algorithmen mit einem Kontrollalgorithmus, aber die Bemerkung "unterscheiden sich in der Art und Weise, wie sie sich anpassen ... um mehrere Vergleiche zu kompensieren" legt nahe, dass dies auch für den Nemenyi-Test gelten sollte.

zk(k1)/2

Dies führt jedoch zu völlig unterschiedlichen Rangunterschieden, bei denen die Nullhypothese verworfen werden kann. Und jetzt stecke ich fest und weiß nicht, welche Methode ich anwenden soll. Ich neige stark zu dem, der die Normalverteilung verwendet , weil es für mich einfacher und logischer ist. Ich muss auch keine Werte in Tabellen nachschlagen und bin nicht an bestimmte Signifikanzwerte gebunden.

Andererseits habe ich noch nie mit der studentisierten Bereichsstatistik gearbeitet und verstehe sie nicht.

Antworten:


5

Ich habe auch gerade angefangen, mir diese Frage anzuschauen.

Wie bereits erwähnt, berücksichtigen diese p-Werte nicht mehrere Tests, wenn wir die Normalverteilung verwenden, um p-Werte für jeden Test zu berechnen. Um dies zu korrigieren und die familienbezogene Fehlerrate zu steuern, müssen einige Anpassungen vorgenommen werden. Bonferonni, dh das Teilen des Signifikanzniveaus oder das Multiplizieren der rohen p-Werte mit der Anzahl der Tests, ist nur eine mögliche Korrektur. Es gibt eine große Anzahl anderer p-Wert-Korrekturen mit mehreren Tests, die in vielen Fällen weniger konservativ sind.

Diese p-Wert-Korrekturen berücksichtigen nicht die spezifische Struktur der Hypothesentests.

Ich bin eher mit dem paarweisen Vergleich der Originaldaten anstelle der rangtransformierten Daten wie bei Kruskal-Wallis- oder Friedman-Tests vertraut. In diesem Fall, bei dem es sich um den Tukey-HSD-Test handelt, wird die Teststatistik für den Mehrfachvergleich gemäß der Verteilung des studentisierten Bereichs verteilt, die die Verteilung für alle paarweisen Vergleiche unter der Annahme unabhängiger Stichproben darstellt. Es basiert auf Wahrscheinlichkeiten einer multivariaten Normalverteilung, die durch numerische Integration berechnet werden könnten, aber normalerweise aus Tabellen verwendet werden.

Ich vermute, da ich die Theorie nicht kenne, dass die studentisierte Bereichsverteilung auf ähnliche Weise wie bei den paarweisen Tukey-HSD-Vergleichen auf den Fall von Rangprüfungen angewendet werden kann.

Die Verwendung von (2) Normalverteilung plus mehreren Test-p-Wert-Korrekturen und (1) studentisierten Bereichsverteilungen sind zwei verschiedene Möglichkeiten, um eine ungefähre Verteilung der Teststatistik zu erhalten. Wenn jedoch die Annahmen für die Verwendung der studentisierten Bereichsverteilung erfüllt sind, sollte sie eine bessere Annäherung liefern, da sie für das spezifische Problem aller paarweisen Vergleiche ausgelegt ist.


1

Soweit ich weiß, schlägt Demšar beim Vergleich von nur zwei Algorithmen den von Wilcoxon signierten Rangtest anstelle von Friedman + posthoc vor. Ich bin leider genauso verwirrt wie Sie, wenn es darum geht, zu entschlüsseln, was Demšars Division durch k-1 bedeuten soll.


1
Teilen durch (k-1) ist, wenn Sie mehrere Algorithmen mit einer Steuermethode vergleichen. Aber das ist jeder gegen jeden, also NxN. Der Teil, den ich verstehen kann, aber die Beziehung zur Verteilung des studentisierten Bereichs liegt außerhalb meines Verständnisses.
Wachposten

@Sentry: Sie müssen hier mit dem Anpassungsfaktor multiplizieren, nicht multiplizieren. Bitte sehen Sie meine Antwort oben.
Chris

0

Ich stolperte auch über die Frage, ob der p-Wert aus einer normalen oder einer studentisierten t-Verteilung berechnet werden soll. Leider kann ich es immer noch nicht beantworten, da verschiedene Artikel unterschiedliche Methoden kommunizieren.

Für die Berechnung der angepassten p-Werte müssen Sie jedoch den nicht korrigierten p-Wert mit dem Anpassungsfaktor multiplizieren, z. B. p * (k-1) bei Vergleichen mit einer Kontrollmethode oder p * ((k * (k-1)) )) / 2) für nxn Vergleiche.

Was Sie durch den Anpassungsfaktor dividieren sollten, ist der Alpha-Wert im Vergleich zu nicht angepassten ps.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.