Gibt es ein Problem mit mehreren Tests, wenn t-Tests für mehrere Koeffizienten in linearer Regression durchgeführt werden?


7

Diese Frage stammt aus einer Diskussion über den jüngsten Beitrag von @rvl. Es liegt alles in der Familie. Aber schließen wir auch die Schwiegereltern ein?

Hier ist ein häufiges Szenario, das ich schon oft gesehen habe. Ein Forscher führt eine einfache lineare Regression mit beispielsweise 5 Kovariaten durch.

lm(Y ~ X1 + X2 + X3 + X4 + X5, data = df)

Interaktionseffekte für den Moment ignorieren. Sie führen die Zusammenfassung der Regression aus und beachten Folgendes:

      Estimate      Pr(>|t|)
X1    a            0.10
X2    b            0.47
X3    c            0.04            
X4    d            0.38
X5    e            0.12

Daraus schließen sie, dass die Kovariate X3ein signifikanter Prädiktor für das Ergebnis ist Y. Ich habe das schon oft gesehen.

Meine Frage ist, warum wir diese Werte nicht für mehrere Vergleiche anpassen müssen . Führen wir nicht 5 Tests gleichzeitig durch, obwohl es sich um Kovariaten handelt, wodurch sich die Wahrscheinlichkeit erhöht, dass ein falsches Positiv angezeigt wird? Unter der Annahme von 5 völlig unabhängigen Tests würde eine Wahrscheinlichkeit von oder 23% bestehen, ein falsches Positiv zu sehen, anstatt der üblichen 5%, dies ist jedoch der In der Berichterstattung des "bedeutenden Vereins" ist kein Weg angegeben.P.1- -(1- -α)M.=1- -0,9550,23

Dieser Artikel aus der Frage Ist das Anpassen von p-Werten in einer multiplen Regression für mehrere Vergleiche eine gute Idee? scheint darauf hinzudeuten, dass es bei einer schrittweisen Modellauswahl vorteilhaft ist, die Werte Ihrer Kovariaten zu korrigieren , um die erhöhte Typ-1-Fehlerrate zu berücksichtigen. Dies scheint darauf hinzudeuten, dass Testkovariaten nicht anders wirken als übliche Tests.P.

Hat jemand irgendwelche Erfahrungen damit gemacht? Ich würde gerne Fehler in meiner Logik oder Gründe hören, warum dies nicht getan werden sollte.


2
Entschuldigung, ich habe momentan keine Zeit, Ihnen eine bessere Antwort zu geben, aber die Ergebnisse der Regression beantworten einen bestimmten Hypothesentest (Vergleich von Verteilungen unter Einbeziehung oder Entfernung einer bestimmten Variablen. Eine Bonferroni-ähnliche Anpassung wäre stattdessen mehr angemessen, wenn die Nullhypothese einschließlich eines Vektors von Parametern komplizierter war. Dies ist bei mehreren Vergleichen der Fall.
Jonathan Lisic

Antworten:


3

Für das Problem mit mehreren Tests kann es sinnvoll sein, einen Blick auf die familienbezogene Fehlergrenze zu werfen : Führt die Wiederverwendung von Datensätzen für verschiedene Studien unabhängiger Fragen zu mehreren Testproblemen? .

Wenn Sie in Ihrem obigen Beispiel eine Regression für eine Stichprobe schätzen, können Sie mit einem t-Test nur über die Signifikanz eines einzelnen Koeffizienten entscheiden. Ja, es gibt also ein Problem mit mehreren Tests, wenn Sie Schlussfolgerungen für mehrere Koeffizienten ziehen , basierend auf mehreren t-Tests.

Nennen wir die Koeffizienten , dann können Sie testen gegen mit a t-Test und schließen Sie, dass signifikant ist. Beachten Sie, dass Sie, wenn Sie nicht ablehnen können, nicht schließen können, dass Null ist (siehe Was folgt, wenn wir die Nullhypothese nicht ablehnen? ).βich,ich=1,2,5H.0(1)::β1=0H.1(1)::β10β1H.0(1)β1

Wenn Sie also statistische Beweise dafür finden möchten, dass nicht Null ist, muss Ihr der Ausdruck sein, den Sie 'beweisen' möchten, dh und dann ist das Gegenteil, dh . Wenn Sie davon ausgehen, dass wahr ist (um einen statistischen Widerspruch abzuleiten), haben Sie einen festen Wert für den Parameter und daraus folgt, dass Sie die Verteilung des Schätzers (siehe Theorie zur linearen Regression) und Sie können p-Werte berechnen. β1H.1(1)H.1(1)::β10H.0(1)β1=0H.0(1)β1=0β^1

Nehmen wir nun den Fall, in dem Sie zeigen möchten, dass , dann muss dies Ihr und das entgegengesetzte ist, dass entweder , da dort ein ' oder ' steht, Sie nicht alle Parameter der kombinierten Verteilung von !(β10 und β20)H.1(1,2)H.0(1,2)(β1=0 oder β2=0)(β^1,β^2)

Können Sie mehrere Testverfahren anwenden? Die meisten von ihnen gehen davon aus, dass die einzelnen p-Werte unabhängig sind, in diesem Beispiel und kann nicht unabhängig sein angezeigt!β^1β^2

In einem fortgeschrittenen Buch über Ökonometrie (z. B. WH Greene, "Econometric Analysis") finden Sie jedoch einen geeigneten Test für J (simultane) lineare Einschränkungen ( ist eine Besonderheit Typ von 5 linearen Einschränkungen), die das Problem der mehrfachen Tests vermeiden.βich=0,ich=1,2,3,4,5


4
(+1) Beachten Sie, dass die üblichen Omnibus-F-Tests für gleichzeitige lineare Einschränkungen tatsächlich mehrere Vergleiche berücksichtigen. Sie sehen jedoch keine Ablehnung einzelner Bestandteile der zusammengesetzten Null vor.
Scortchi - Monica wieder einsetzen

1
@fcoppens, Entschuldigung für die Verzögerung in meiner Antwort. Ich habe es genossen, Ihre Antwort zu lesen, danke. Es ist trivial, dass und nicht unabhängig sind, aber ich denke nicht, dass es richtig ist, dass alle mehreren Testverfahren unabhängige Tests erfordern. Insbesondere erfordert Bonferroni (und einige Derivate) keine Unabhängigkeit und FDR unterliegt einer positiven Regressionsabhängigkeit. Ich wollte dich nur wissen lassen. Ansonsten sehr informative Antwort, und ich werde mich mit WH Greene befassen. Prost.β^1β^2
Chris C

@ Scortchi, Danke für die Erinnerung. Die Modellauswahl für die Einbeziehung von Variablen in einen Omnibus-Test basierend auf Werten unterliegt jedoch diesem Problem, sodass sie nicht gegen das Problem immun sind. Ganz zu schweigen davon, dass die Modellauswahl immer erfolgt, aber gelegentlich, insbesondere bei Interaktionseffekten. Du hast recht, nur meine 0.02. P.
Chris C

@ChrisC: Sie haben Recht (+1) auf Bonferonni, es setzt keine Unabhängigkeit voraus, aber es ist konservativ. Für FDR muss ich prüfen, aber für 5 Hypothesen ist FDR nicht so relevant und die Kontrolle von FDR impliziert keine Kontrolle von FWER.

1
@ChrisC: Ich wollte nur darauf hinweisen, dass die referenzierten F-Tests keine p-Werte für Tests korrigieren, bei denen einzelne Koeffizienten gleich Null sind, um die Regressionsfehlerrate zu steuern - ich weiß nicht, ob es praktische höhere gibt. angetriebene Alternative zur Bonferroni-Methode dafür. Sie sind sich nicht ganz sicher, was Sie mit "Modellauswahl für die Einbeziehung von Variablen in einen Omnibus-Test basierend auf P-Werten" meinen, aber wenn Sie Hypothesentests für die Modellauswahl verwenden möchten, führen Sie eine kleine Zahl aus. Durch die Anzahl der Chunk-Tests werden die Probleme mit mehreren Tests verbessert.
Scortchi - Monica wieder einsetzen

6

Es kann einige zusätzliche Aspekte geben, die berücksichtigt werden sollten (die für einen Kommentar etwas zu lang sind).

  1. Ob es in einer bestimmten Anwendung ein Problem mit mehreren Tests gibt oder nicht, hängt stark davon ab, welche Koeffizienten ein Forscher betrachtet. In vielen Anwendungen interessiert sich einer nur für 1-2 Schlüsselvariablen und die anderen dienen nur als "Steuerelemente". Angenommen, in einem Datenmodell des Panels mit festen Effekten haben wir möglicherweise das Gefühl, dass wir individuelle spezifische Abschnitte benötigen, um die unbeobachtete Heterogenität zu kontrollieren, aber wir sind normalerweise nicht wirklich an diesen festen Effekten an sich interessiert . Andererseits sichten wir beispielsweise in der Wachstumsökonometrie alle möglichen Determinanten für das Wachstum und sind daher bereit, alle wesentlichen Variablen zu betrachten. Im letzteren Fall haben wir ein Problem mit mehreren Tests, aber nicht unbedingt im ersteren.N.

  2. Ich würde argumentieren, dass es in der Tat mehrere leistungsstarke (zumindest leistungsstärkere als Bonferroni) Alternativen für die Durchführung einer solchen Modellauswahlübung gibt. Dazu gehören die Bayes'sche Modellmittelung, die Analyse extremer Grenzen, allgemeine bis spezifische, bestrafte Methoden (Lasso und verwandte Methoden) sowie Methoden, die direkt aus der Literatur zu mehreren Tests stammen. Die letztere Gruppe umfasst klassische Methoden, die auf der Benjamini-Hochberg-Methode basieren, aber auch neuere Bootstrap-basierte Methoden. Um eine schamlose Eigenwerbung zu betreiben, werden diese verglichen und in einem meiner Papiere angewendet .


(+1) Danke, das ist ein fantastischer Beitrag. Ich hatte Punkt 1 nicht berücksichtigt, und Sie haben Recht, dass es einen großen Unterschied macht. Ich befürchte, dass dies das Ganze subjektiv macht, da a priori dazu neigt, sich zu verwischen, wenn ich gelegentlich Zeit habe . Würden Sie diese Dichotomie zwischen den Variablen "Kontrolle" und "Interesse" empfehlen? Ich hatte noch keine Gelegenheit, Ihre Arbeit zu lesen, aber ich habe das Buch markiert und werde es lesen, sobald ich die Gelegenheit dazu habe. Vielen Dank für den Link. Beste.
Chris C

Hm, es ist im Allgemeinen schwer zu sagen, ob diese Dichotomie empfehlenswert ist - wird wahrscheinlich von der Anwendung abhängen. Und obwohl ich es als Schwarz-Weiß-Ding präsentiert habe, sehe ich natürlich, dass die Unterscheidung in der Praxis ziemlich verschwommen sein kann.
Christoph Hanck
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.