Es ist alles in der Familie; Aber schließen wir auch die Schwiegereltern ein?

Angenommen, ich habe ein Experiment mit zwei oder mehr Faktoren. Es wird eine Gesamt-ANOVA erstellt, und anschließend werden zwei oder mehr Sätze von Post-hoc- Tests durchgeführt, beispielsweise mehrere Vergleiche. Meine Frage ist, wie groß --- und wie viele --- Familien als Grundlage für die Multiplizitätsanpassungen dieser Post-hoc- Tests verwendet werden sollten.

Ein Beispiel ist der Warp-Breaks-Datensatz aus Tukeys EDA-Buch. Es gibt zwei Faktoren: wool(auf zwei Ebenen) und tension(auf drei Ebenen). Die ANOVA-Tabelle lautet:

Source       Df Sum Sq Mean Sq F value    Pr(>F)    
wool          1  450.7  450.67  3.7653 0.0582130
tension       2 2034.3 1017.13  8.4980 0.0006926
wool:tension  2 1002.8  501.39  4.1891 0.0210442
Residuals    48 5745.1  119.69

Es ist klar, dass die Interaktion im Modell benötigt wird. Wir beschließen daher, die Niveaus der einzelnen Faktoren zu vergleichen und den anderen Faktor festzuhalten. Die Ergebnisse sind unten aufgeführt, wobei einige Anmerkungen später aufgeführt werden:

*** Pairwise comparisons of tension for each wool ***
*** All combined: Family T ***

wool = A:   *** Family T|A ***
 contrast   estimate       SE df t.ratio
 L - M    20.5555556 5.157299 48   3.986
 L - H    20.0000000 5.157299 48   3.878
 M - H    -0.5555556 5.157299 48  -0.108

wool = B:   *** Family T|B ***
 contrast   estimate       SE df t.ratio
 L - M    -0.5555556 5.157299 48  -0.108
 L - H     9.4444444 5.157299 48   1.831
 M - H    10.0000000 5.157299 48   1.939


*** Comparison of wool for each tension ***
*** All combined: Family W ***

tension = L:   *** Family W|L ***
 contrast  estimate       SE df t.ratio
 A - B    16.333333 5.157299 48   3.167

tension = M:   *** Family W|M ***
 contrast  estimate       SE df t.ratio
 A - B    -4.777778 5.157299 48  -0.926

tension = H:   *** Family W|H ***
 contrast  estimate       SE df t.ratio
 A - B     5.777778 5.157299 48   1.120

Ich denke, es gibt verschiedene Praktiken, und ich frage mich, welche am häufigsten vorkommen und welche Argumente die Leute für oder gegen jeden Ansatz vorbringen würden. Sollten wir bei der Berechnung angepasster Werte Multiplizitätsanpassungen für ... $P$

jede der fünf kleinsten Familien (T | A, T | B, ..., W | H) separat? (Hinweis - Die letzten 3 Familien haben nur einen Test, daher gibt es für diese keine Multiplizitätsanpassung.)
jede der größeren Familien (T, mit 6 Tests und W, mit 3 Tests) separat?
alle Tests als eine große Familie betrachtet? $6+3=9$

Ich interessiere mich sowohl dafür, was die Leute normalerweise tun (auch wenn sie nicht viel darüber nachgedacht haben) als auch warum (wenn sie es getan haben). Ein paar Dinge, die ich erwähnen könnte, sind:

Die ANOVA-Tabelle enthält 3 Tests. Ich kann mich nicht erinnern, dass jemand eine Anpassung der Multiplizität bei ANOVA-Tests in Betracht gezogen hat. Wenn dies der Fall ist und Sie Option (3) empfehlen, sind Sie inkonsistent? $F$
Wenn wir ein etwas kleineres Experiment durchgeführt hätten, bei dem alle Tests weniger leistungsfähig sind, wäre die Interaktion möglicherweise nicht signifikant gewesen, was zu einer viel geringeren Anzahl von Post-hoc- Vergleichen nur von Randmitteln geführt hätte. Darüber hinaus könnten die Randmittel durchaus kleinere SEs aufweisen als die Zellmittel im größeren Experiment. Wenn außerdem die Multiplizitätsanpassung weniger konservativ ist, könnten wir mit weniger Daten "signifikantere" Ergebnisse erzielen als mit mehr Daten.

Interessiert zu sehen, was die Leute zu sagen haben ...

multiple-comparisons post-hoc

— Russ Lenth
quelle

Noch hat niemand geantwortet, also mache ich eine Pause.

Ich bin der Meinung (und ich würde gerne die Gedanken anderer hören), dass Sie sich in diesem Fall auf die vollständigen 9 Tests einstellen sollten. Angenommen, wir verwenden eine familienbezogene Fehlerratenkorrektur.

Wir ziehen gleichzeitig Schlussfolgerungen aus allen 9 Tests gleichzeitig. Dh die Liste durchsuchen und nach etwas Bedeutendem suchen.
Um dies zu tun, erwägen wir eine Gesamt Familie weise Fehlerrate von 5%. Die Alternative wäre, die Gruppen individuell auf 5% FWER zu korrigieren. Dies würde bedeuten, dass wir beim Dolmetschen die Tests nicht zusammen interpretieren könnten und lieber die ersten 6 Tests betrachten und denken müssten, dass eine 5% ige Wahrscheinlichkeit für ein falsches Positiv besteht, und anschließend jeden der weiteren Tests der Reihe nach wissen dass es für jede Gruppe eine 5% ige Chance auf ein falsches Positiv gibt . IMO ist der Nutzen der Mehrfachtestkorrektur, dass wir gleichzeitig Rückschlüsse aus mehreren Tests ziehen können. Es erscheint logischer, dass wir uns alle 9 Tests ansehen und wissen, dass es eine 5% ige Wahrscheinlichkeit für ein falsches Positiv gibt, anstatt sie separat untersuchen zu müssen, ähnlich wie wenn wir überhaupt nicht korrigieren.
Das Problem der Anpassung für die drei Tests in der ANOVA ist interessant, aber meiner Meinung nach nur relevant, wenn Sie eine Modellauswahl planen, bei der Sie nur signifikante Prädiktoren akzeptieren. Dies könnte eine gute Lektüre sein, insbesondere ist die Schlussfolgerung eine sehr prägnante und ausgezeichnete Lektüre. Ich habe diesen Link aus dieser Frage gestohlen . $F$
Ihr Standpunkt zur Einbeziehung von Interaktionseffekten ist interessant, und ich denke, Sie könnten dies als Modellauswahl definieren. Hätten Sie die Interaktionseffekte einbezogen, wenn sie signifikant wären? In diesem Fall hätte möglicherweise die Statistik in der ursprünglichen ANOVA angepasst werden müssen, um die Auswahl signifikanter Prädiktoren zu erleichtern. $F$

Insgesamt denke ich, dass Sie, wenn Sie aus einer Gruppe gleichzeitig Rückschlüsse ziehen, jeden Test in dieser Gruppe zur Korrektur berücksichtigen müssen. Andernfalls hält das Standardverständnis der kontrollierten Gruppenfehlerrate nicht an, und es ist ziemlich schwierig, konzeptionell zu verfolgen, was angepasst wurde und was nicht. Meiner Meinung nach ist es viel besser, alle Tests zur Rechenschaft zu ziehen und die familienbezogene Fehlerrate bei einem bestimmten Schwellenwert zu halten.

Wenn Sie irgendwelche Widerlegungen haben, würde ich sie gerne hören, und ich bin sicher, dass einige Leute mit einigen Dingen hier nicht einverstanden sind. Sehr interessiert, die Gedanken anderer zu hören.

— Chris C.
quelle

Vielen Dank. Gut durchdacht. Nebenfrage: Ist es möglich, SAS dazu zu bringen? Ich glaube nicht, aber ich weiß nicht viel über SAS. Es ist relevant, weil ich denke, dass diese Art der Anpassung in der Praxis selten verwendet wird.

— Russ Lenth

Leider weiß ich nicht so viel über SAS, sorry @rvl. Vielleicht wird jemand anderes das sehen und helfen. Ich hoffe, dass Sie noch mehr Leute für dieses Thema gewinnen. Es ist eine sehr gute Frage, über die die Leute nicht wirklich oft nachdenken.

— Chris C

Das ist in Ordnung - ich habe nur darüber nachgedacht, was mit vorhandener Software eigentlich einfach möglich ist. Wenn der Konsens auf Option 3 hinausläuft, benötigen wir Softwareunterstützung dafür!

— Russ Lenth

... aber jetzt kann es in R gemacht werden. Siehe die neue Antwort, die ich in der zugehörigen Frage stats.stackexchange.com/questions/165125/… gepostet habe . Diese Frage hat mich dazu gebracht, darüber nachzudenken.

— Russ Lenth

Sehr cool! Sind Sie der Betreuer von lsmeans? Das war viel Arbeit für diese Frage!

— Chris C