Mitteln wir für die Modellmittelung eines GLM die Vorhersagen auf der Link- oder Antwortskala?

Um die modellgemittelten Vorhersagen auf der Antwortskala eines GLM zu berechnen, welche ist "korrekt" und warum?

Berechnen Sie die modellgemittelte Vorhersage auf der Verbindungsskala und transformieren Sie sie anschließend auf die Antwortskala zurück
Transformieren Sie die Vorhersagen in die Antwortskala und berechnen Sie dann den Modelldurchschnitt

Die Vorhersagen sind nahe beieinander, aber nicht gleich, wenn das Modell ein GLM ist. Die verschiedenen R-Pakete bieten Optionen für beide (mit unterschiedlichen Standardeinstellungen). Mehrere Kollegen haben lautstark argumentiert, dass # 1 falsch ist, weil "jeder # 2 macht". Meine Intuition sagt, dass # 1 "korrekt" ist, da es alle linearen mathematischen Werte linear hält (# 2 mittelt Dinge, die sich nicht auf einer linearen Skala befinden). Eine einfache Simulation zeigt, dass # 2 eine sehr (sehr!) Geringfügig kleinere MSE als # 1 hat. Wenn # 2 korrekt ist, warum? Und wenn # 2 richtig ist, warum ist meine Argumentation (lineare Mathematik linear halten) schlecht?

Edit 1: Das Berechnen von Grenzmitteln über die Ebenen eines anderen Faktors in einem GLM ist ein ähnliches Problem wie die Frage, die ich oben stelle. Russell Lenth berechnet marginale Mittelwerte von GLM-Modellen unter Verwendung des "Timings" (seiner Wörter) von # 1 (im Emmeans-Paket), und sein Argument ähnelt meiner Intuition.

Bearbeiten 2: Ich verwende die Modellmittelung, um auf die Alternative zur Modellauswahl zu verweisen, bei der eine Vorhersage (oder ein Koeffizient) als gewichteter Durchschnitt über alle oder eine Teilmenge der "besten" verschachtelten Modelle geschätzt wird (siehe Referenzen und R-Pakete unten). .

Bei verschachtelten Modellen, wobei die lineare Vorhersage (im Verknüpfungsraum) für das individuelle für das Modell ist und die Gewichtung für das Modell , die modellgemittelte Vorhersage unter Verwendung von # 1 oben (Durchschnitt auf der Verknüpfung) skalieren und dann auf die Antwortskala zurücktransformieren) ist: $M$ $\eta_i^m$ $i$ $m$ $w_m$ $m$

{\hat{Y.}}_{ich} = G^{- 1} (\sum_{m = 1}^{M} w_{m} η_{ich}^{m})

$\hat{Y}_i = g^{-1}\Big(\sum_{m=1}^M{w_m \eta_i^m}\Big)$

und die modellgemittelte Vorhersage unter Verwendung von # 2 oben (alle Vorhersagen rücktransformieren und dann auf der Antwortskala mitteln) ist: $M$

{\hat{Y.}}_{ich} = \sum_{m = 1}^{M} w_{m} G^{- 1} (η_{ich}^{m})

$\hat{Y}_i = \sum_{m=1}^M{w_m g^{-1}(\eta_i^m})$

Einige Bayesian und Frequentist Methoden der Modellmittelung sind:

Hoeting, JA, Madigan, D., Raftery, AE und Volinsky, CT, 1999. Bayesianische Modellmittelung: Ein Tutorial. Statistical Science, S. 382-401.
Burnham, KP und Anderson, DR, 2003. Modellauswahl und Multimodell-Inferenz: ein praktischer informationstheoretischer Ansatz. Springer Science & Business Media.
Hansen, BE, 2007. Modellmittelung der kleinsten Quadrate. Econometrica, 75 (4), S. 1175–1189.
Claeskens, G. und Hjort, NL, 2008. Modellauswahl und Modellmittelung. Cambridge Bücher.

R-Pakete umfassen BMA , MuMIn , BAS und AICcmodavg . (Hinweis: Dies ist keine Frage der Weisheit der Modellmittelung im Allgemeinen.)

generalized-linear-model model-averaging

— JWalker
quelle

Ich vermute, Ihre Frage wird nicht beantwortet, weil andere Leser wie ich Ihre Frage nicht verstehen. Was meinst du genau mit "Modell-Mittelung"? Bitte beschreiben Sie einen Kontext im Detail, damit wir verstehen, welches Problem Sie lösen möchten. Soweit ich sehen kann, werden im emmeans-Paket keine Durchschnittsprognosen aus verschiedenen Modellen berechnet.

— Gordon Smyth

Vielen Dank, dass Sie dies gefragt haben, und ich sehe, dass das Hinzufügen der Russell Lenth-Note meine Frage verwirrt. Ich habe versucht, dies oben zu klären. Das emmeans-Paket berechnet marginale Mittelwerte und SE über die Niveaus eines anderen Faktors, und diese Statistiken werden auf der Verbindungsskala berechnet und dann rücktransformiert. Siehe den Abschnitt "Das Modell ist unser bester Leitfaden" .

— JWalker

Ich wäre wirklich an Antworten auf diese Frage interessiert. Inzwischen ein Kommentar. Dieses MSE-Ergebnis wird auf der rücktransformierten Skala berechnet. Ich würde wetten, dass bei den gleichen Simulationsergebnissen die MSE, wenn sie auf der Verbindungsskala berechnet wird, mit # 1 kleiner ist als mit # 2. Der Grund dafür ist, dass der Stichprobenmittelwert der Schätzer der kleinsten Quadrate des Bevölkerungsmittelwerts ist, auch auf der falschen Skala.

— Russ Lenth

Die optimale Art, Schätzer oder Prädiktoren zu kombinieren, hängt von der Verlustfunktion ab, die Sie zu minimieren versuchen (oder von der Dienstprogrammfunktion, die Sie zu maximieren versuchen).

Wenn die Verlustfunktion Prädiktionsfehler auf der Antwortskala misst, sind im Allgemeinen die Mittelungsprädiktoren auf der Antwortskala korrekt. Wenn Sie beispielsweise den erwarteten quadratischen Vorhersagefehler auf der Antwortskala minimieren möchten, ist der hintere mittlere Vorhersagefaktor optimal und kann abhängig von Ihren Modellannahmen der Mittelwertbildung auf der Antwortskala entsprechen.

Beachten Sie, dass die Mittelwertbildung auf der linearen Prädiktorskala für diskrete Modelle sehr schlecht sein kann. Angenommen, Sie verwenden eine logistische Regression, um die Wahrscheinlichkeit einer binären Antwortvariablen vorherzusagen. Wenn eines der Modelle eine geschätzte Wahrscheinlichkeit von Null angibt, ist der lineare Prädiktor für dieses Modell minus unendlich. Der Durchschnitt der Unendlichkeit mit einer beliebigen Anzahl von endlichen Werten wird immer noch unendlich sein.

Haben Sie die Referenzen konsultiert, die Sie auflisten? Ich bin sicher, dass Hoeting et al. (1999) zum Beispiel Verlustfunktionen diskutieren, wenn auch vielleicht nicht sehr detailliert.

— Gordon Smyth
quelle

Ausgezeichnet. Vielen Dank für diese Antwort (ich begrüße andere!). Ich gehe davon aus, dass "die Mittelwertbildung von Prädiktoren wahrscheinlich optimal oder nahe daran ist" die Mittelwertbildung von Prädiktoren auf der Antwortskala ist. Die Logistiknotiz ist besonders hilfreich.

— JWalker

@rvl Bezüglich der Linearität der Verlustfunktion habe ich über die Einflussfunktion des Verlusts nachgedacht. Ich bin damit einverstanden, dass das ein bisschen kryptisch ist, also habe ich meine Kommentare bearbeitet. Ich muss mit Ihren anderen Bemerkungen nicht einverstanden sein. GLMs werden nach ML und nicht nach quadratischem Fehlerverlust geschätzt. Trotz des Namens minimiert der für GLMs beliebte IRLS-Algorithmus keine Quadratsumme, und die IRLS-Arbeitsvariable enthält standardisierte Residuen auf der Antwortskala, nicht auf der Verbindungsskala. In jedem Fall sind Schätzung und Vorhersage nicht gleich und müssen nicht die gleichen Verlustfunktionen haben.

— Gordon Smyth

@rvl Genaue Null-Anpassungswerte treten in der logistischen Regression häufig auf und wurden in diesem Forum mehrmals diskutiert.

— Gordon Smyth

@rvl Der Verlust wird auf der Link-Skala nicht ausgewertet. Diese Diskussion ist nicht der richtige Ort für mich, um Ihnen ein Tutorial zu GLMs anzubieten. Ich verweise Sie stattdessen auf mein Buch zu GLMs, das Springer in etwa einem Monat veröffentlichen wird. Diese Diskussion ist auch nicht der richtige Ort für Sie, um eine alternative Antwort auf die ursprüngliche Frage anzubieten. Schreiben Sie eine richtige Antwort, wenn Sie das tun möchten.

— Gordon Smyth

Hier ist der Link zu unserem Buch über GLMs: doi.org/10.1007/978-1-4419-0118-7

— Gordon Smyth