Warum sind p-Werte nach einer schrittweisen Auswahl irreführend?

Betrachten wir zum Beispiel ein lineares Regressionsmodell. Ich habe gehört, dass es beim Data Mining nach einer schrittweisen Auswahl auf der Grundlage des AIC-Kriteriums irreführend ist, die p-Werte zu betrachten, um die Nullhypothese zu testen, dass jeder wahre Regressionskoeffizient Null ist. Ich habe gehört, dass man alle Variablen, die im Modell verbleiben, als echte Regressionskoeffizienten betrachten sollte, die sich stattdessen von Null unterscheiden. Kann mir jemand erklären warum? Vielen Dank.

— John M
quelle

Hier gibt es mehr Informationen. Hilfreich sind auch die dort zitierten Referenzen.

— S. Kolassa - Setzen Sie Monica

In theoryecology.wordpress.com/2018/05/03/… zeige ich einen R-Code, der die Typ-I-Inflation nach der AIC-Auswahl demonstriert. Beachten Sie, dass es egal ist, ob schrittweise oder global, der Punkt ist, dass die Modellauswahl im Grunde genommen aus mehreren Tests besteht.

— Florian Hartig

Nach einer schrittweisen Auswahl basierend auf dem AIC-Kriterium ist es irreführend, die p-Werte zu betrachten, um die Nullhypothese zu testen, dass jeder wahre Regressionskoeffizient Null ist.

In der Tat stellen p-Werte die Wahrscheinlichkeit dar, eine Teststatistik zu sehen, die mindestens so extrem ist wie die, die Sie haben, wenn die Nullhypothese wahr ist. Wenn wahr ist, sollte der p-Wert eine gleichmäßige Verteilung haben. $H_0$

Aber nach schrittweiser Auswahl (oder nach einer Reihe anderer Ansätze zur Modellauswahl) haben die p-Werte der Terme, die im Modell verbleiben, diese Eigenschaft nicht, selbst wenn wir wissen, dass die Nullhypothese wahr ist.

Dies geschieht, weil wir die Variablen auswählen, die kleine p-Werte haben oder dazu neigen (abhängig von den genauen Kriterien, die wir verwendet haben). Dies bedeutet, dass die p-Werte der im Modell verbliebenen Variablen in der Regel viel kleiner sind als bei einer Anpassung eines einzelnen Modells. Beachten Sie, dass die Auswahl im Durchschnitt Modelle auswählt, die noch besser als das wahre Modell zu passen scheinen, wenn die Klasse der Modelle das wahre Modell enthält oder wenn die Klasse der Modelle flexibel genug ist, um das wahre Modell genau anzunähern.

[Zusätzlich und aus dem gleichen Grund sind die verbleibenden Koeffizienten von Null weg vorgespannt und ihre Standardfehler sind niedrig vorgespannt; Dies wirkt sich wiederum auch auf Konfidenzintervalle und Vorhersagen aus - unsere Vorhersagen sind beispielsweise zu eng.]

Um diese Effekte zu sehen, können Sie mehrere Regressionen durchführen, bei denen einige Koeffizienten 0 sind und andere nicht. Führen Sie dann eine schrittweise Prozedur durch, und sehen Sie sich für die Modelle, die Variablen mit Nullkoeffizienten enthalten, die resultierenden p-Werte an.

(In derselben Simulation können Sie die Schätzungen und die Standardabweichungen für die Koeffizienten anzeigen und diejenigen ermitteln, die Nicht-Null-Koeffizienten entsprechen.)

Kurz gesagt, es ist nicht angebracht, die üblichen p-Werte als sinnvoll zu betrachten.

Ich habe gehört, dass man stattdessen alle im Modell verbliebenen Variablen als signifikant betrachten sollte.

Ich bin mir nicht sicher, inwieweit dies eine nützliche Sichtweise ist, ob alle Werte im Modell nach stepwise als "signifikant" eingestuft werden sollen. Was soll dann "Bedeutung" bedeuten?

Hier ist das Ergebnis der Ausführung von Rs stepAICmit Standardeinstellungen für 1000 simulierte Stichproben mit n = 100 und zehn Kandidatenvariablen (von denen keine mit der Antwort zusammenhängt). In jedem Fall wurde die Anzahl der im Modell verbliebenen Begriffe gezählt:

In nur 15,5% der Fälle wurde das richtige Modell ausgewählt. In der übrigen Zeit enthielt das Modell Begriffe, die sich nicht von Null unterschieden. Wenn es tatsächlich möglich ist, dass die Menge der Kandidatenvariablen Variablen mit dem Koeffizienten Null enthält, haben wir wahrscheinlich mehrere Terme, bei denen der wahre Koeffizient in unserem Modell Null ist. Infolgedessen ist es nicht klar, ob es eine gute Idee ist, sie alle als nicht Null zu betrachten.

— Glen_b - Setzen Sie Monica wieder ein
quelle

Mit dem Satz "Ich habe gehört, dass man stattdessen alle im Modell verbliebenen Variablen als signifikant betrachten sollte" meinte ich: "Ich habe gehört, dass man alle im Modell verbliebenen Variablen als einen echten Regressionskoeffizienten betrachten sollte, der sich von Null unterscheidet"

— John M

Okay; Ich habe die Ergebnisse einer Simulation hinzugefügt, die dazu spricht.

— Glen_b

+1 Ich habe an diesem Wochenende die gleichen Simulationen durchgeführt, um mich auf einen Kurs über Modellauswahlmethoden vorzubereiten. Ich erhielt die gleichen Ergebnismuster, indem ich bis Variablen untersuchte und Beobachtungen verwendete. Der nächste Schritt ist zu sehen, was eine Bonferroni - Korrektur bewirken könnte ....

k = 3

$k=3$

39

$39$

10 k

$10k$

— Whuber

@whuber in der Tat, zu sehen, welche Auswirkung ein Bonferroni (auf eine Vielzahl von Aspekten des Problems) haben würde, war meine unmittelbare Neigung, die obige Simulation ebenfalls abzuschließen, aber es ist nicht das, was die Leute eigentlich mit schrittweise tun, also habe ich nicht angesprochen hier. Es würde mich faszinieren, wenn Sie über Modellauswahlmethoden sprechen. Ich denke, ich würde einiges lernen.

— Glen_b

@Glen_b: (Zitiert nach Ihrer Antwort) Dies bedeutet, dass die p-Werte der im Modell verbleibenden Variablen in der Regel viel kleiner sind als sie wären, wenn wir ein einzelnes Modell angepasst hätten, selbst wenn das Modell, zu dem wir passen, zufällig wäre derjenige, der die Daten erzeugt hat, unabhängig davon, ob das wahre Modell null ist oder nicht ". Können Sie den hervorgehobenen Teil etwas erläutern? Wie kann es sein, dass die p-Werte in dem Modell kleiner sind, das dieselbe Spezifikation wie der Datenerzeugungsprozess hat (echtes Modell)?

— Shani

$t$ $F_{p-1, n-p-1}$ $F_{q-1, n-q-1}$ $q < p$ $F$

— Frank Harrell
quelle