Eine "signifikante Variable", die die Vorhersagen außerhalb der Stichprobe nicht verbessert - wie zu interpretieren?


10

Ich habe eine Frage, von der ich denke, dass sie für viele Benutzer ziemlich einfach sein wird.

Ich verwende lineare Regressionsmodelle, um (i) die Beziehung mehrerer erklärender Variablen und meiner Antwortvariablen zu untersuchen und (ii) meine Antwortvariable unter Verwendung der erklärenden Variablen vorherzusagen.

Eine bestimmte erklärende Variable X scheint meine Antwortvariable erheblich zu beeinflussen. Um den Mehrwert dieser erklärenden Variablen X für die Vorhersagen meiner Antwortvariablen außerhalb der Stichprobe zu testen, habe ich zwei Modelle verwendet: Modell (a), das alle erklärenden Variablen verwendet, und Modell (b), das alle Variablen verwendet mit Ausnahme der Variablen X. Für beide Modelle gebe ich ausschließlich die Leistung außerhalb der Stichprobe an. Es scheint, dass beide Modelle fast gleich gut abschneiden. Mit anderen Worten, das Hinzufügen der erklärenden Variablen X verbessert die Vorhersagen außerhalb der Stichprobe nicht. Beachten Sie, dass ich auch Modell (a) verwendet habe, dh das Modell mit allen erklärenden Variablen, um festzustellen, dass die erklärende Variable X meine Antwortvariable erheblich beeinflusst.

Meine Frage ist nun: Wie ist dieser Befund zu interpretieren? Die einfache Schlussfolgerung ist, dass die Variable X, obwohl sie meine Antwortvariable unter Verwendung von Inferenzmodellen signifikant zu beeinflussen scheint, die Vorhersagen außerhalb der Stichprobe nicht verbessert. Ich habe jedoch Probleme, diesen Befund weiter zu erklären. Wie kann dies möglich sein und was sind einige Erklärungen für diesen Befund?

Danke im Voraus!

Zusätzliche Informationen: Mit 'signifikantem Einfluss' meine ich, dass 0 nicht im höchsten 95% posterioren Dichteintervall der Parameterschätzung enthalten ist (ich verwende einen Bayes'schen Ansatz). Häufig entspricht dies in etwa einem p-Wert von weniger als 0,05. Ich verwende nur diffuse (nicht informative) Prioritäten für alle meine Modellparameter. Meine Daten haben eine Längsstruktur und enthalten insgesamt rund 7000 Beobachtungen. Für die Vorhersagen außerhalb der Stichprobe habe ich 90% der Daten verwendet, um meine Modelle anzupassen, und 10% der Daten, um die Modelle mithilfe mehrerer Replikationen zu bewerten. Das heißt, ich habe den Zugtest-Split mehrmals durchgeführt und schließlich die durchschnittlichen Leistungsmetriken angegeben.


2
Da Sie einen Bayes'schen Ansatz verwenden, hängen Ihre Ergebnisse sowohl von Ihrem vorherigen als auch von den Daten ab. Da die Abhängigkeit vom Prior mit zunehmender Datenmenge abnimmt und in dem Maße zunimmt, in dem die Daten und der vorherige nicht übereinstimmen , ist es für Sie hilfreich, Informationen sowohl über die vorherige Verteilung als auch über die Datenmenge und die Übereinstimmung der Daten allein bereitzustellen zur vorherigen Verteilung.
whuber

1
@whuber Ich habe vergessen zu erwähnen, dass ich nur diffuse (nicht informative) Prioritäten verwende. Daher habe ich nicht das Gefühl, dass meine vorherige Spezifikation etwas mit meinen Ergebnissen zu tun hat. Ich bin mir ziemlich sicher, dass die Anpassung von häufig auftretenden linearen Regressionsmodellen zu genau denselben Ergebnissen führen wird.
Dubvice

Danke - das hilft, einige mögliche Erklärungen auszuschließen.
whuber

1
Passen Sie die Modelle an die gehaltenen Daten an oder verwenden Sie die Modelle, die Sie an Ihre Originaldaten anpassen? In beiden Fällen besteht ein mögliches Problem darin, dass Sie einen Typ-II-Fehler bei den gehaltenen Daten machen. Vielleicht ist die Variable relevant, aber Sie waren ursprünglich unterfordert (in diesem Fall überschätzen Sie wahrscheinlich den Effekt, der die Vorhersagen verschlechtern könnte). Oder die Variable war irrelevant und Sie haben einen Fehler vom Typ I gemacht. Es gibt viele Gründe, warum so etwas passieren könnte.
Kerl

1
Ich habe verschiedene Metriken verwendet: RSME, MAE und AUC (Ich versuche auch vorherzusagen, ob meine abhängige Variable, die kontinuierlich ist, unter einem bestimmten Schwellenwert liegt).
Dubvice

Antworten:


3

x1x2x1x2x1x2x1x2R2

Die Funktion ist:

sim_ES <- function (effect_size = 1, sd = 2, n = 200) {
    # simulate some data
    DF <- data.frame(x1 = runif(n, -3, 3), x2 = runif(n, -3, 3))
    DF$y <- 2 + 5 * DF$x1 + (effect_size * sd) * DF$x2 + rnorm(n, sd = sd)

    # fit the models with and without x2
    fm1 <- lm(y ~ x1 + x2, data = DF)
    fm2 <- lm(y ~ x1, data = DF)

    # results
    list("95% CIs" = confint(fm1),
         "R2_X1_X2" = summary(fm1)$r.squared,
         "R2_only_X1" = summary(fm2)$r.squared)
}

Als Beispiel für die Standardwerte, die wir erhalten,

$`95% CIs`
               2.5 %   97.5 %
(Intercept) 1.769235 2.349051
x1          4.857439 5.196503
x2          1.759917 2.094877

$R2_X1_X2
[1] 0.9512757

$R2_only_X1
[1] 0.8238826

x2R2

Wenn wir jedoch die Effektgröße auf 0,3 einstellen, erhalten wir:

> sim_ES(effect_size = 0.3)
$`95% CIs`
                2.5 %    97.5 %
(Intercept) 1.9888073 2.5563233
x1          4.9383698 5.2547929
x2          0.3512024 0.6717464

$R2_X1_X2
[1] 0.9542341

$R2_only_X1
[1] 0.9450327

R2


Die vage Zweiteilung zwischen statistischer Signifikanz und prädiktiver Leistung ist in mehrfacher Hinsicht der Fluch meines analytischen Lebens. (+1 - und ein allgemeines Willkommen bei CV Prof.!)
usεr11852

-1

Dies ist eine ziemlich normale Sache, die bei multipler Regression auftritt. Der häufigste Grund ist, dass Ihre Prädiktoren miteinander verwandt sind. Mit anderen Worten, Sie können X aus den Werten der anderen Prädiktoren ableiten. Daher ist es zwar für Vorhersagen nützlich, wenn es der einzige Prädiktor ist, den Sie haben, aber sobald Sie alle anderen Prädiktoren haben, liefert es nicht viele zusätzliche Informationen. Sie können überprüfen, ob dies der Fall ist, indem Sie X auf die anderen Prädiktoren zurückführen. Ich würde auch auf das Kapitel über lineare Regression im kostenlosen Online-Lehrbuch Elemente des statistischen Lernens verweisen.


1
Sie scheinen eine nicht signifikante erklärende Variable zu beschreiben, anstatt auf die in der Frage beschriebenen besonderen Umstände einzugehen.
whuber

Ich beschreibe eine erklärende Variable, die in erheblichem Maße mit der Antwort selbst zusammenhängt (dh in einer einfachen Regression). Ich gehe davon aus, dass die Frage "X scheint meine Antwortvariable erheblich zu beeinflussen" bedeutet.
Denziloe

Aber in diesem Fall hätte ich nicht festgestellt, dass meine erklärende Variable X meine Antwortvariable erheblich beeinflusst, oder? Vielleicht habe ich in meiner Frage anfangs nicht klargestellt, aber ich habe ein Modell mit allen erklärenden Variablen verwendet, um festzustellen, dass die erklärende Variable X einen signifikanten Einfluss auf meine Antwortvariable hat.
Dubvice

3
X

1
Ja, du hast es richtig verstanden. Das ist was ich meine. Ich habe dies hoffentlich in meiner Frage gut genug geklärt.
Dubvice
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.