Würde es zu weit gehen, zu behaupten, dass es meine Verteilungsentscheidung bestätigt?
Es hängt irgendwie davon ab, was Sie mit "validieren" genau meinen, aber ich würde sagen "ja, das geht zu weit" in der gleichen Weise, wie Sie nicht wirklich sagen können "die Null wird als wahr gezeigt" (insbesondere mit Punktnullen, aber zumindest in gewissem Sinne allgemeiner). Man kann nur wirklich sagen "Nun, wir haben keine starken Beweise dafür, dass es falsch ist". Aber wir erwarten auf keinen Fall, dass unsere Modelle perfekt sind, sie sind Modelle . Was zählt, wie Box & Draper sagte, ist " wie falsch müssen sie sein, um nicht nützlich zu sein? "
Einer dieser beiden vorhergehenden Sätze:
Dies scheint mir nahezulegen, dass die Wahl einer Gaußschen Verteilung durchaus vernünftig war. Oder zumindest, dass die Residuen mit der Verteilung übereinstimmen, die ich in meinem Modell verwendet habe.
Beschreiben Sie viel genauer, worauf Ihre Diagnose hinweist - nicht, dass ein Gauß-Modell mit Protokollverknüpfung richtig war -, sondern dass es vernünftig war oder mit den Daten übereinstimmt.
Ich habe eine Log-Link-Funktion gewählt, weil meine Antwortvariable immer positiv ist, aber ich möchte eine Art Bestätigung, dass es eine gute Wahl war.
Wenn Sie wissen, dass es positiv sein muss, muss sein Mittelwert positiv sein. Es ist sinnvoll, ein Modell zu wählen, das dem zumindest entspricht. Ich weiß nicht, ob es eine gute Wahl ist (es könnte auch viel bessere geben), aber es ist eine vernünftige Sache; Es könnte mein Ausgangspunkt sein. [Wenn die Variable selbst jedoch unbedingt positiv ist, würde mein erster Gedanke eher Gamma mit log-link als Gauß'sch sein. "Notwendigerweise positiv" deutet sowohl auf eine Schiefe als auch auf eine Varianz hin, die sich mit dem Mittelwert ändert.]
F2: Gibt es irgendwelche Tests, wie das Überprüfen der Residuen auf die Wahl der Verteilung, die meine Wahl der Verbindungsfunktion unterstützen können?
Es hört sich so an, als ob Sie "Test" nicht als "formalen Hypothesentest", sondern als "diagnostische Prüfung" bezeichnen.
In beiden Fällen lautet die Antwort: Ja, das gibt es.
Ein formaler Hypothesentest ist der Goodness of Link-Test von Pregibon [1].
Dies basiert auf der Einbettung der Verknüpfungsfunktion in eine Box-Cox-Familie, um einen Hypothesentest des Box-Cox-Parameters durchzuführen.
Siehe auch die kurze Erörterung von Pregibons Test in Breslow (1996) [2] ( siehe S. 14 ).
η= g( μ )x
rWich= ( yich- μ^ich) ( ∂η∂μ)
(worauf ich mich für diese Einschätzung stützen würde), oder vielleicht durch Betrachten von Abweichungen von der Linearität in Teilresten, mit einem Plot für jeden Prädiktor (siehe zum Beispiel Hardin und Hilbe, Verallgemeinerte lineare Modelle und Erweiterungen, 2. Aufl., Abschnitt 4.5 .4 p54, für die Definition),
rTk i= ( yich- μ^ich) ( ∂η∂μ) + xich kβ^k
= rWich+ xich kβ^k
In Fällen, in denen die Daten eine Transformation durch die Verknüpfungsfunktion zulassen, können Sie auf die gleiche Weise nach Linearität suchen wie bei der linearen Regression (obwohl Sie eine Schiefe und möglicherweise eine Heteroskedastizität hinterlassen haben).
Bei kategorialen Prädiktoren ist die Auswahl der Verknüpfungsfunktion eher eine Frage der Bequemlichkeit oder Interpretierbarkeit. Die Anpassung sollte dieselbe sein (daher ist keine Bewertung für sie erforderlich).
Sie können eine Diagnose auch auf den Ansatz von Pregibon stützen.
Diese bilden keine vollständige Liste. Sie können andere besprochene Diagnosen finden.
[Trotzdem stimme ich der Einschätzung von gung zu, dass die Wahl der Verbindungsfunktion anfangs, soweit möglich, auf theoretischen Überlegungen beruhen sollte.]
Siehe auch einige der Diskussionen in diesem Beitrag , die zumindest teilweise relevant sind.
[1]: Pregibon, D. (1980),
"Goodness of Link Tests for Generalized Linear Models",
Zeitschrift der Royal Statistical Society. Reihe C (Angewandte Statistik) ,
Bd. 29, Nr. 1, S. 15-23.
[2]: Breslow NE (1996),
"Generalized Linear Models: Überprüfung von Annahmen und Stärkung von Schlussfolgerungen",
Statistica Applicata 8 , 23-41.
pdf