Sollten wir bei der Verwendung von Konfidenzintervallen mehrere Vergleichsanpassungen berücksichtigen?

Angenommen, wir haben ein Szenario mit mehreren Vergleichen, z. B. eine Post-Hoc- Folgerung für paarweise Statistiken oder eine multiple Regression, bei der wir insgesamt Vergleiche durchführen. Angenommen, wir möchten die Inferenz in diesen Multiplikatoren mithilfe von Konfidenzintervallen unterstützen. $m$

1. Wenden wir mehrere Vergleichsanpassungen auf CIs an? Das heißt, genau wie mehrere Vergleiche eine Neudefinition von zu entweder der familienbezogenen Fehlerrate (FWER) oder der falschen Entdeckungsrate (FDR) zwingen , hat dies die Bedeutung von Vertrauen (oder Glaubwürdigkeit ¹ oder Unsicherheit oder Vorhersage) oder inferential ... wählen Sie Ihr Intervall) durch mehrere Vergleiche ähnlich verändert werden? Mir ist klar, dass eine negative Antwort hier meine verbleibenden Fragen beantworten wird. $\alpha$

2. Gibt es einfache Übersetzungen von mehreren Vergleichsanpassungsverfahren vom Hypothesentest zur Intervallschätzung? Beispielsweise würden sich Anpassungen darauf konzentrieren, den Begriff im Konfidenzintervall zu ändern : ? $\text{CI-level}$ $\text{CI}_{\theta} = (\hat{\theta} \pm t_{(1-\text{CI-level)/2}}\hat{\sigma}_{\theta})$

3. Wie würden wir die Auf- oder Abwärtskontrollverfahren für Kreditinstitute angehen? Einige familienbezogene Fehlerratenanpassungen vom Ansatz des Hypothesentests bis zur Inferenz sind "statisch", da genau dieselbe Anpassung für jede einzelne Inferenz vorgenommen wird. Zum Beispiel erfolgt die Bonferroni-Anpassung durch Ändern des Ablehnungskriteriums von:

ablehnen, wenn an: $p\le \frac{\alpha}{2}$
ablehnen, wenn , $p\le \frac{\frac{\alpha}{2}}{m}$

Die Holm-Bonferroni-Aufwärtskorrektur ist jedoch nicht "statisch", sondern erfolgt durch:

Ordne zuerst die Werte von klein nach groß und dann $p$
ablehnen, wenn , (wobei die Reihenfolge der Werte indiziert ) bis $p\le 1 - (1- \frac{\alpha}{2})^{\frac{1}{m+1-i}}$ $i$ $p$
Wir lehnen eine Nullhypothese nicht ab und lehnen automatisch alle nachfolgenden Nullhypothesen nicht ab.

Da Ablehnung / Nichtablehnung bei CIs nicht vorkommt (siehe die folgenden Verweise), bedeutet dies, dass schrittweise Prozeduren nicht übersetzt werden (dh alle FDR-Methoden einschließen)? Ich möchte hier darauf hinweisen, dass ich nicht frage, wie CIs in Hypothesentests übersetzt werden sollen (die Vertreter der unten zitierten Literatur zu visuellen Hypothesentests kommen zu dieser nicht trivialen Frage).

4. Was ist mit einem der anderen Intervalle, die ich in 1 in Klammern erwähnt habe?

¹ Gosh, ich sicher , hoffe ich nicht in Schwierigkeiten mit dieser rockin' den süßen, süßen Bayesian Arten von diesem Wort hier verwendet wird . :)

Literaturhinweise
Afshartous, D. und Preston, R. (2010). Konfidenzintervalle für abhängige Daten: Gleichsetzung von Nichtüberschneidung mit statistischer Signifikanz. Computational Statistics & Data Analysis , 54 (10): 2296–2305.

Cumming, G. (2009). Inferenz mit dem Auge: Lesen der Überlappung unabhängiger Konfidenzintervalle. Statistics In Medicine , 28 (2): 205–220.

Payton, ME, Greenstone, MH und Schenker, N. (2003). Überlappende Konfidenzintervalle oder Standardfehlerintervalle: Was bedeuten sie für die statistische Signifikanz? Journal of Insect Science , 3 (34): 1–6.

Tryon, WW und Lewis, C. (2008). Eine Inferenz-Konfidenzintervall-Methode zur Ermittlung der statistischen Äquivalenz zur Korrektur des Tryon-Reduktionsfaktors (2001). Psychological Methods , 13 (3): 272–277.

confidence-interval multiple-comparisons inference

— Alexis
quelle

Ich habe jetzt keine Zeit, eine vollständige Antwort zu recherchieren, daher antworte ich in einem Kommentar.

— Harvey Motulsky

[Der letzte Kommentar wurde gekürzt. [Ich habe jetzt keine Zeit, eine vollständige Antwort zu recherchieren, daher werde ich in einem Kommentar antworten. 1) Ja, es ist in den gleichen Situationen sinnvoll, da mehrere Vergleiche zum Testen von Hypothesen sinnvoll sind. 2. Bonferroni-, Tukey- und Dunnet-Mehrfachvergleiche können leicht angepasst werden, um Konfidenzintervalle zu erstellen, in denen das Konfidenzniveau für die gesamte Familie gilt. 3. Soweit ich das beurteilen kann, gibt es keine Möglichkeit, Konfidenzintervalle nach der Holm-Methode zu erstellen. 4. Ich habe keine Ahnung!

— Harvey Motulsky

@ HarveyMotulsky Großartig! Zu Ihren ersten beiden Antworten: (1) Warum? (2) Einfach durch Invertieren der Mathematik von Wert-Anpassungen zu Anpassungen bei der Berechnung der kritischen Werte einer Verteilung, mit der ein CI konstruiert wird? Sie können immer eine formelle Antwort schreiben (anstoßen), anstatt sie in den Kommentaren zu verstärken (nudgitty-nudge nudge).

p

$p$

α

$\alpha$

— Alexis

Antworten:

Ein exzellentes Thema, dem leider nicht genug Beachtung geschenkt wird.

Bei der Diskussion mehrerer Parameter und Konfidenzintervalle sollte zwischen simultaner und selektiver Inferenz unterschieden werden. Ref. [2] gibt eine hervorragende Demonstration der Sache.

Gleichzeitige Konfidenzintervalle bedeuten, dass alle Parameter mit Konfidenz abgedeckt sind . Selektive Konfidenzintervalle bedeuten, dass eine Teilmenge ausgewählter Parameter abgedeckt wird. $1-\alpha$

Diese beiden Konzepte können kombiniert werden: Angenommen, Sie erstellen Intervalle nur für Parameter, für die Sie die Nullhypothese abgelehnt haben. Sie haben es eindeutig mit selektiven Schlussfolgerungen zu tun. Möglicherweise möchten Sie die gleichzeitige Abdeckung ausgewählter Parameter oder die marginale Abdeckung ausgewählter Parameter gewährleisten. Ersteres wäre das Gegenstück zur FWER-Kontrolle und letzteres zur FDR-Kontrolle.

Jetzt mehr zum Punkt: Nicht alle Testverfahren haben ihre zugehörigen Intervalle. Zu FWER-Verfahren und den zugehörigen Intervallen siehe [3]. Leider ist diese Referenz etwas veraltet. Zum Intervallgegenstück der BH-FDR-Kontrolle siehe [1] und einen Antrag in [4] (der auch eine kurze Übersicht über die Angelegenheit enthält). Bitte beachten Sie, dass dies ein neues und aktives Forschungsfeld ist, sodass Sie in naher Zukunft weitere Ergebnisse erwarten können.

[1] Benjamini, Y. und D. Yekutieli. "False Discovery Rate Adjusted Multiple Confidence Intervals für ausgewählte Parameter." Journal der American Statistical Association 100, No. 469 (2005): 71–81.

[2] Cox, DR "Eine Bemerkung zu mehreren Vergleichsmethoden". Technometrics 7, No. 2 (1965): 223–24.

[3] Hochberg, Y. und AC Tamhane. Mehrere Vergleichsverfahren. New York, NY, USA: John Wiley & Sons, Inc., 1987.

[4] Rosenblatt, JD und Y. Benjamini. „Selektive Korrelationen; Nicht Voodoo. ”NeuroImage 103 (Dezember 2014): 401–10.

— JohnRos
quelle

Würde ich niePassen Sie die Konfidenzintervalle für mehrere Tests an. Ich bin kein großer Fan von p-Werten, weil ich glaube, dass das Schätzen von Parametern eine bessere Verwendung von Statistiken ist, als das Testen von Hypothesen, die niemals genau zutreffen. Ich gebe jedoch zu, dass das Testen von Hypothesen seinen Wert hat, beispielsweise in einer randomisierten kontrollierten Studie, in der zumindest argumentiert werden kann, dass die Nullhypothese wahr ist, wenn eine Behandlung nicht funktioniert. Wie ich bereits an anderer Stelle gesagt habe [1], beinhaltet dies normalerweise ein primäres Ergebnis. Die Konfidenzintervalle enthalten in der Definition des Frequentisten jedoch keine Hypothesen und müssen daher nicht für andere, möglicherweise irrelevante Vergleiche angepasst werden. Angenommen, ich teste Phänotypen, die mit einem bestimmten Gen assoziiert sind, beispielsweise Höhe und Blutdruck. ICH' Ich würde gerne wissen, wie groß der Höhenunterschied zwischen denen mit und ohne Gen ist und wie gut ich ihn eingeschätzt habe. Ich sehe nicht, dass die Tatsache, dass ich auch den Blutdruck gemessen habe, etwas damit zu tun hat. Es könnte von Bedeutung sein, wenn diese beiden von Hunderten, die wir getestet haben, die einzigen signifikanten wären. Dann ist es wahrscheinlich, dass die Unterschiede zufällig größer sind als die erwarteten kontrafaktischen Experimente, bei denen wir nur Höhe und Blutdruck gemessen haben, aber Hunderte von Experimenten durchgeführt haben. Unter diesen Umständen würde jedoch keine einfache Anpassung funktionieren, und es wäre besser, die nicht angepasste Schätzung anzugeben, sondern zu überprüfen, wie Sie diese Vergleiche erhalten haben. Wir haben auch einige Ergebnisse zu überlappenden Konfidenzintervallen veröffentlicht. [2] Ich sehe nicht, dass die Tatsache, dass ich auch den Blutdruck gemessen habe, etwas damit zu tun hat. Es könnte von Bedeutung sein, wenn diese beiden von Hunderten, die wir getestet haben, die einzigen signifikanten wären. Dann ist es wahrscheinlich, dass die Unterschiede zufällig größer sind als die erwarteten kontrafaktischen Experimente, bei denen wir nur Höhe und Blutdruck gemessen haben, aber Hunderte von Experimenten durchgeführt haben. Unter diesen Umständen würde jedoch keine einfache Anpassung funktionieren, und es wäre besser, die nicht angepasste Schätzung anzugeben, sondern zu überprüfen, wie Sie diese Vergleiche erhalten haben. Wir haben auch einige Ergebnisse zu überlappenden Konfidenzintervallen veröffentlicht. [2] Ich sehe nicht, dass die Tatsache, dass ich auch den Blutdruck gemessen habe, etwas damit zu tun hat. Es könnte von Bedeutung sein, wenn diese beiden von Hunderten, die wir getestet haben, die einzigen signifikanten wären. Dann ist es wahrscheinlich, dass die Unterschiede zufällig größer sind als die erwarteten kontrafaktischen Experimente, bei denen wir nur Höhe und Blutdruck gemessen haben, aber Hunderte von Experimenten durchgeführt haben. Unter diesen Umständen würde jedoch keine einfache Anpassung funktionieren, und es wäre besser, die nicht angepasste Schätzung anzugeben, sondern zu überprüfen, wie Sie diese Vergleiche erhalten haben. Wir haben auch einige Ergebnisse zu überlappenden Konfidenzintervallen veröffentlicht. [2] größer als die erwarteten kontrafaktischen Experimente, bei denen wir nur Höhe und Blutdruck gemessen haben, es aber Hunderte von Experimenten gemacht haben. Unter diesen Umständen würde jedoch keine einfache Anpassung funktionieren, und es wäre besser, die nicht angepasste Schätzung anzugeben, sondern zu überprüfen, wie Sie diese Vergleiche erhalten haben. Wir haben auch einige Ergebnisse zu überlappenden Konfidenzintervallen veröffentlicht. [2] größer als die erwarteten kontrafaktischen Experimente, bei denen wir nur Höhe und Blutdruck gemessen haben, es aber Hunderte von Experimenten gemacht haben. Unter diesen Umständen würde jedoch keine einfache Anpassung funktionieren, und es wäre besser, die nicht angepasste Schätzung anzugeben, sondern zu überprüfen, wie Sie diese Vergleiche erhalten haben. Wir haben auch einige Ergebnisse zu überlappenden Konfidenzintervallen veröffentlicht. [2]

[1] Statistiken von Campbell MJ und Swinscow TDV (2009) bei Square One. 11. Aufl. Oxford; BMJ Bücher Blackwell Publishing

[2] Julious SA, Campbell MJ, Walters SJ (2007). Auf der Grundlage der Ergebnisse des aktuellen Versuchs wird vorhergesagt, wo künftige Mittel liegen werden. Contemporary Clinical Trials, 28, 352-357.

— Mike Campbell
quelle

Vielen Dank für die zum Nachdenken anregende Antwort, Mike. Benjamini, Hochberg und Yekutieli scheinen zu argumentieren, dass Vergleiche nicht "irrelevant", sondern tatsächlich simultan sind: "Eine gleichzeitige Erfassung ist auch erforderlich, wenn eine Aktion basierend auf dem Wert aller Parameter durchgeführt werden soll. Auf diese Weise werden primäre Endpunkte zwischen zwei verglichen Bei Behandlungen in einer klinischen Studie werden wahrscheinlich alle untersucht, unabhängig davon, ob sie erheblich voneinander abweichen oder nicht. Dies ist eine eindeutige Situation, in der eine gleichzeitige Erfassung erforderlich ist. " (Abgesehen von der Frage der selektiven Präsentation nur einiger CIs.)

— Alexis

Angesichts der Tatsache, dass "ich kein großer Fan von p-Werten bin, weil ich glaube, dass das Schätzen von Parametern eine bessere Verwendung von Statistiken ist als das Testen von Hypothesen, die niemals genau zutreffen", könnte es Ihnen Spaß machen, warum das Testen von häufig auftretenden Hypothesen dazu neigt, die zu verwerfen Nullhypothese mit ausreichend großen Stichproben? . Prost.

— Alexis

Ich stimme Ihnen zu, dass Konfidenzintervalle für Parameter für die meisten Inferenzformen den p-Werten überlegen sind, aber ich bin mir nicht sicher, ob dies notwendigerweise impliziert, dass bei Konfidenzintervallen keine Korrektur für Mehrfachvergleiche erforderlich ist. Die meisten Konfidenzintervalle werden durch die Verwendung von Alpha definiert, um die Abdeckung anzugeben. Selbst wenn ich mich vom strengen Rahmen für Hypothesentests distanziere, scheint es mir (naiv, ohne Simulationen durchführen zu müssen) irreführend zu sein, wenn ich bei mehreren Vergleichen dogmatisch an der nominalen Abdeckung festhalte (z. B. 95%, also Alpha = 0,05) beteiligt.

— Ryan Simmons

Mike Campbell sagte, dass "Konfidenzintervalle in der Definition der Frequentisten keine Hypothesen beinhalten und daher keine Anpassung für andere, möglicherweise irrelevante Vergleiche erforderlich sind." Das ist eine merkwürdige Aussage. Obwohl CIs an sich möglicherweise keine "Hypothesentests" widerspiegeln, spiegeln sie statistische Tests wider, die eine bestimmte Fehlerrate (z. B. 0,05) aufweisen, und diese Fehlerrate wird mit zunehmender Anzahl von Tests erhöht - und zwar um genau die gleiche mathematische Grundlage Prinzip, das für Nullhypothesentests gilt. Man kann sich dem Problem der Mehrfachvergleiche nicht entziehen, indem man sich auf CIs statt auf p-Werte konzentriert.

— Bonferroni