Diese Frage stammt aus einer Diskussion über den jüngsten Beitrag von @rvl. Es liegt alles in der Familie. Aber schließen wir auch die Schwiegereltern ein?
Hier ist ein häufiges Szenario, das ich schon oft gesehen habe. Ein Forscher führt eine einfache lineare Regression mit beispielsweise 5 Kovariaten durch.
lm(Y ~ X1 + X2 + X3 + X4 + X5, data = df)
Interaktionseffekte für den Moment ignorieren. Sie führen die Zusammenfassung der Regression aus und beachten Folgendes:
Estimate Pr(>|t|)
X1 a 0.10
X2 b 0.47
X3 c 0.04
X4 d 0.38
X5 e 0.12
Daraus schließen sie, dass die Kovariate X3
ein signifikanter Prädiktor für das Ergebnis ist Y
. Ich habe das schon oft gesehen.
Meine Frage ist, warum wir diese Werte nicht für mehrere Vergleiche anpassen müssen . Führen wir nicht 5 Tests gleichzeitig durch, obwohl es sich um Kovariaten handelt, wodurch sich die Wahrscheinlichkeit erhöht, dass ein falsches Positiv angezeigt wird? Unter der Annahme von 5 völlig unabhängigen Tests würde eine Wahrscheinlichkeit von oder 23% bestehen, ein falsches Positiv zu sehen, anstatt der üblichen 5%, dies ist jedoch der In der Berichterstattung des "bedeutenden Vereins" ist kein Weg angegeben.
Dieser Artikel aus der Frage Ist das Anpassen von p-Werten in einer multiplen Regression für mehrere Vergleiche eine gute Idee? scheint darauf hinzudeuten, dass es bei einer schrittweisen Modellauswahl vorteilhaft ist, die Werte Ihrer Kovariaten zu korrigieren , um die erhöhte Typ-1-Fehlerrate zu berücksichtigen. Dies scheint darauf hinzudeuten, dass Testkovariaten nicht anders wirken als übliche Tests.
Hat jemand irgendwelche Erfahrungen damit gemacht? Ich würde gerne Fehler in meiner Logik oder Gründe hören, warum dies nicht getan werden sollte.