Ist Fischers LSD so schlimm, wie sie sagen?


22

Wenn wir Experimente (mit kleinen Probengrößen (normalerweise beträgt die Probengröße pro Behandlungsgruppe etwa 7 bis 8)) mit zwei Gruppen durchführen, verwenden wir einen T-Test, um den Unterschied zu testen. Wenn wir jedoch eine ANOVA durchführen (offensichtlich für mehr als zwei Gruppen), verwenden wir etwas nach dem Vorbild von Bonferroni (LSD / # of pairwise comparisons) oder Tukey's als Post-hoc, und als Student wurde ich gewarnt unter Verwendung von Fisher's Least Significant Difference (LSD).

Nun ist die Sache, LSD ähnelt dem paarweisen t-Test (habe ich recht?), Und das einzige, was nicht berücksichtigt wird, ist, dass wir mehrere Vergleiche durchführen. Wie wichtig ist das bei etwa 6 Gruppen, wenn die ANOVA selbst von Bedeutung ist?

Oder mit anderen Worten, gibt es einen wissenschaftlichen / statistischen Grund für die Verwendung eines Fisher's LSD?


1
Könnten Sie klarstellen, wer ' sie ' sind, und Beispiele für das, was sie sagen, anführen? (Wie schlecht sagen sie, dass es ist? Lassen Sie uns klarstellen, worüber wir hier sprechen.) Ich habe Kritik an LSD gesehen, einige davon sind berechtigt, aber ich weiß nicht, dass ich gesehen habe, was Sie gesehen haben gesehen, noch das, was ich gesehen habe, würde ganz die Charakterisierung erfordern, die Sie dort haben.
Glen_b

+1, wenn Sie hierher gekommen sind, um herauszufinden, auf welcher Stapelaustausch-Site über Timothy Learys LSD
PW Kad

Sie beziehen sich auf Wissenschaftler in den biomedizinischen Wissenschaften. Die Worte meines Professors lauteten: "Benutze Bonferroni oder Tukey. Benutze LSD nur in der Verzweiflung. Wenn das nicht hilft, benutze das andere LSD :)"
Rover Eye

Antworten:


10

Fischers LSD ist in der Tat eine Reihe paarweiser t-Tests, wobei jeder Test den mittleren quadratischen Fehler aus der signifikanten ANOVA als gepoolte Varianzschätzung verwendet (und natürlich die zugehörigen Freiheitsgrade nimmt). Dass die ANOVA signifikant ist, ist eine zusätzliche Einschränkung dieses Tests.

Dies beschränkt die familienbezogene Fehlerrate auf Alpha, und zwar nur in dem Spezialfall von 3 Gruppen. Howell hat eine sehr gute und relativ einfache Erklärung dafür in Kapitel 16 seines Buches Grundlegende Statistik für die Verhaltenswissenschaften, 8. Auflage, David C. Howell .

Über 3 Gruppen bläst sich Alpha schnell auf (wie @Alexis oben bemerkt hat). Es ist sicherlich nicht für 6 Gruppen geeignet. Ich glaube, dass es diese begrenzte Anwendbarkeit ist, die die meisten Leute veranlasst, vorzuschlagen, sie als Option zu ignorieren.


18

Wie wichtig sind Mehrfachvergleiche bei 6 Gruppen? Naja ... bei sechs Gruppen handelt es sich um maximal möglichepaarweisenachträglicheVergleiche. Ich werde den unschätzbaren Randall Munroe auf die Wichtigkeit mehrerer Vergleiche eingehen lassen:6(6-1)2=15

Bildbeschreibung hier eingeben

Und ich werde hinzufügen, dass, wenn Sie, wie in Ihrem Eröffnungssatz, vorschlagen, dass Sie manchmal sieben Gruppen haben, die maximale Anzahl von paarweisen Post-Hoc- Tests 7 ( 7 - 1 ) beträgt.7(7-1)2=21


1
Punkt gut gemacht. Stellt dies jedoch die Frage, ob die Wahrscheinlichkeit, zufällig einen signifikanten Wert zu finden, gering ist, wenn wir nur sehr wenige Gruppen haben (z. B. 3 (paarweise) oder 4 (paarweise))? (Wiederum ist der LSD durch die Bedeutung der ANOVA geschützt)
Rover Eye

2
α

2
@Rover 6 paarweise Tests, die alle mit p> 0,05 bestehen, bedeuten, dass Sie jetzt p> 0,26 haben. Das ist eine ziemlich signifikante Änderung.
Voo

Ich frage nicht nach irgendetwas Praktischem, habe nur laut nachgedacht. Aber Ihr Punkt ist gut gemacht. @Voo wahr, der Fehler neigt dazu, sich zu vermehren. Danke euch beiden.
Rover Eye

10

Der Fischertest ist so schlecht, wie jeder sagt, er ist aus Sicht von Neyman-Pearson und wenn Sie tun, was Ihre Frage impliziert - nach einem signifikanten ANOVA-Test wird jeder einzelne Unterschied festgestellt. Sie können dies in vielen veröffentlichten Artikeln sehen . Es ist jedoch weder notwendig noch empfehlenswert, alle Unterschiede nach einer ANOVA zu testen. Der Fisher-Test wurde nicht nach einer Neyman-Pearson-Theorie der statistischen Folgerung erstellt.

Es ist wichtig zu bedenken, dass Fisher, als er die LSD vorschlug, die Mehrfachprüfung nicht wirklich als wichtiges Problem ansah, da er die Signifikanzgrenze nicht als feste Regel für die Entscheidung ansah, ob Ergebnisse wichtig waren oder nicht. Man könnte eine LSD konstruieren, um auf einfache Weise die Daten dahingehend zu untersuchen, wo möglicherweise signifikante Ergebnisse vorliegen, nicht jedoch der Schiedsrichter, was bedeutsam ist. Denken Sie daran, es war Fisher, der sagte, Sie sollten nur mehr Probanden ausführen, wenn p > 0,05 ist.

Und warum halten Sie es für eine gute Idee, alles zu testen? Überlegen Sie, warum Sie überhaupt eine ANOVA durchführen. Ihnen wurde wahrscheinlich beigebracht, dass es problematisch ist, mehrere T-Tests durchzuführen, wie Sie in Ihrer Frage ausführlich darlegen. Warum leiten Sie sie dann oder ihr Äquivalent danach? Ich weiß, dass es passiert, aber nach einer ANOVA muss ich noch einen Test durchführen. Eine ANOVA sagt Ihnen, dass Ihr Datenmuster nicht aus einer Menge gleicher Werte besteht, sondern dass dies möglicherweise eine Bedeutung hat. Viele Leute sind der Warnung verfallen, dass der Test Ihnen nicht sagt, wo die bedeutungsvollen Teile sind, aber sie vergessen, dass die Daten und Theorien Ihnen das sagen.


Danke für die Papiere. Sie stellen die Frage, warum Menschen nach einer ANOVA eine Post-hoc-Methode verwenden. Um ehrlich zu sein, ich weiß es wirklich nicht. Mir wurde gesagt, dass die ANOVA ein Blob-Test ist, und wie Sie bereits erwähnt haben, mussten wir herausfinden, wo die Bedeutung liegt. Und um ehrlich zu sein, bin ich daran interessiert zu wissen, wie Sie nur eine ANOVA melden.
Rover Eye

1
Geben Sie mir ein Datenmuster und ich sage Ihnen, wie ich die ANOVA melden würde. Die Kurzversion ist, dass Sie die Daten beschreiben. Elemente, die sehr nahe beieinander liegen, werden in der Beschreibung gruppiert und diejenigen, die weit voneinander entfernt sind, werden als bedeutende Unterschiede angesehen (aber es ist alles relativ). Angenommen, ich habe A = 20, B = 58, C = 61, p = 0,03. Ich würde die Statistik melden und sagen, dass A niedriger ist als B und C, die ähnlich sind. Es hängt also alles von den Daten ab. Ich kann mir vorstellen, dass eine Abfolge von Elementen in mancher Hinsicht problematisch ist (A = 10, B = 20, C = 30), aber dann hätte ich vielleicht eine Regression durchführen sollen.
John

Das ist eine ziemlich interessante Art, eine ANOVA zu melden, und ich kann sehen, worauf Sie hinaus wollen. Ich kann dies sicherlich mit meinen Vorgesetzten besprechen, bin mir jedoch nicht sicher, ob sie die "Norm" der Meldung einer ANOVA ohne Post-hoc brechen wollen. Suche nach wissenschaftlichen Publikationen, die über diese Methode berichtet haben.
Rover Eye

2
In den Daten ist etwas sinnvoll. Oft ist klar, was das sein muss. Ein Post-hoc-Versuch, um das Offensichtliche zu demonstrieren, zeigt nur, dass Sie nicht wissen, was die ANOVA an erster Stelle tut.
John

6

Die Argumentation hinter Fisher's LSD kann auf Fälle über N = 3 hinaus ausgedehnt werden .

Ich werde den Fall von vier Gruppen im Detail besprechen. Um die familienweise Typ-I-Fehlerrate bei 0,05 oder darunter zu halten, reicht ein Mehrfachvergleichskorrekturfaktor von 3 (dh ein Alpha von 0,05 / 3 pro Vergleich) aus, obwohl es sechs Post-hoc-Vergleiche zwischen den vier Gruppen gibt. Das ist weil:

  • Wenn alle vier wahren Mittelwerte gleich sind, begrenzt die Omnibus-Anova über die vier Gruppen die familienweise Fehlerrate auf 0,05.
  • Falls drei der wahren Mittelwerte gleich sind und der vierte davon abweicht, gibt es nur drei Vergleiche, die möglicherweise einen Typ-I-Fehler ergeben könnten.
  • Falls zwei der wahren Mittelwerte gleich sind und sich von den beiden anderen unterscheiden, die gleich sind, gibt es nur zwei Vergleiche, die möglicherweise einen Typ-I-Fehler ergeben könnten.

Das erschöpft die Möglichkeiten. In allen Fällen bleibt die Wahrscheinlichkeit, einen oder mehrere p- Werte unter 0,05 für Gruppen zu finden, deren wahre Mittelwerte gleich sind, bei oder unter 0,05, wenn der Korrekturfaktor für Mehrfachvergleiche 3 beträgt, und dies ist die Definition der familienweisen Fehlerrate.

Diese Argumentation für vier Gruppen ist eine Verallgemeinerung von Fischers Erklärung für seine Methode mit dem geringsten signifikanten Unterschied in drei Gruppen. Für N Gruppen beträgt der Korrekturfaktor ( N -1) ( N -2) / 2 , wenn der Omnibus-Anova-Test signifikant ist . Daher ist die Bonferroni-Korrektur um einen Faktor von N ( N- 1) / 2 zu stark. Es reicht aus, einen Alpha-Korrekturfaktor von 1 für N = 3 zu verwenden (daher funktioniert Fisher's LSD für N = 3), einen Faktor von 3 für N = 4, einen Faktor von 6 für N = 5, einen Faktor von 10 für N = 6 und so weiter.


+1. Dies ist eine sehr gute Ergänzung zum Thread. Willkommen auf der Seite!
Amöbe sagt Reinstate Monica

Für jede von Ihnen beschriebene Situation sind keine Post-Hoc-Tests erforderlich.
John

1
(N-1)(N-2)/2
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.