GLM: Überprüfung der Verteilungs- und Link-Funktion


14

Ich habe ein verallgemeinertes lineares Modell, das eine Gaußsche Verteilungs- und Protokollverknüpfungsfunktion anwendet. Nach dem Anpassen des Modells überprüfe ich die Residuen: QQ-Diagramm, Residuen gegen vorhergesagte Werte, Histogramm der Residuen (unter Berücksichtigung der gebotenen Vorsicht). Alles sieht gut aus. Dies scheint mir nahezulegen, dass die Wahl einer Gaußschen Verteilung durchaus vernünftig war. Oder zumindest, dass die Residuen mit der Verteilung übereinstimmen, die ich in meinem Modell verwendet habe.

Frage 1 : Würde es zu weit gehen, zu behaupten, dass es meine Distributionswahl bestätigt?

Ich habe eine Log-Link-Funktion gewählt, weil meine Antwortvariable immer positiv ist, aber ich möchte eine Art Bestätigung, dass es eine gute Wahl war.

F2 : Gibt es irgendwelche Tests, wie das Überprüfen der Residuen auf die Wahl der Verteilung, die meine Wahl der Verbindungsfunktion unterstützen können? (Die Auswahl einer Link-Funktion erscheint mir etwas willkürlich, da die einzigen Richtlinien, die ich finden kann, ziemlich vage und von Hand gewellt sind, vermutlich aus gutem Grund.)


2
Q1. Sie könnten andere Distributionen ausprobieren und sehen, ob sie eine bessere Leistung erbringen. Q2. Die Auswahl eines Protokolllinks, um positive Vorhersagen zu gewährleisten, erscheint mir nicht willkürlich. Es ist eine Begründung. Aber ob Sie mit dem Identitätslink negative Vorhersagen erhalten würden und welche Daten Sie haben, könnte wiederum überprüft werden. Fazit: Sie können sich nicht sicher sein, dass andere Modelle nicht besser wären, bevor Sie sie nicht ausprobiert haben.
Nick Cox

1
Danke für die Antwort, @Nick. Ich habe mir Sorgen gemacht, dass es sich einfach nur um eine Scheiße handelt, wie Sie sagen. Ich bin nicht so besorgt, dass es notwendigerweise das beste Modell ist, nur dass die Annahmen gerechtfertigt werden können. Eine Idee, mit der ich gespielt habe, besteht darin, meine Beobachtungen gegen die exponentielle Transformation des linearen Prädiktors . Je näher die Punkte an der 1: 1-Linie liegen, desto besser wird vermutlich eine Log-Link-Funktion angenommen? Auch ich könnte dies mit einem für die 1: 1-Linie quantifizieren . (Ich bin kein Statistiker, daher bin ich mir nicht sicher, wie lächerlich diese Cludges sind.)Y.exp(η)R2
Lyngbakr

2
Ich bin auch kein Statistiker, aber ich habe ähnliche Diagramme für die Bewertung von Modellen verwendet. Siehe zB stata-journal.com/sjpdf.html?articlenum=gr0009 Ich habe auch eine verwendete analogen als beschreibende Maßnahme , ohne das Gefühl zu schuldig es: siehe stats.stackexchange.com/questions/68066/... für Detail . R2
Nick Cox

Antworten:


13
  1. Dies ist eine Variante der häufig gestellten Frage, ob Sie die Nullhypothese durchsetzen können. In Ihrem Fall wäre die Null, dass die Residuen Gauß'sch sind, und die visuelle Überprüfung Ihrer Diagramme (qq-Diagramme, Histogramme usw.) bildet den "Test". (Um einen allgemeinen Überblick über die Behauptung der Null zu erhalten, kann es hilfreich sein, meine Antwort hier zu lesen: Warum sagen Statistiker, dass ein nicht signifikantes Ergebnis bedeutet, dass Sie die Null nicht ablehnen können, anstatt die Nullhypothese zu akzeptieren? ) In Ihrem speziellen Fall können Sie sagen, dass die Diagramme zeigen, dass Ihre Residuen mit Ihrer Annahme der Normalität übereinstimmen, aber sie "validieren" die Annahme nicht.

  2. Sie können Ihr Modell mit verschiedenen Verknüpfungsfunktionen anpassen und vergleichen, aber es gibt keinen Test für eine einzelne Verknüpfungsfunktion für sich (dies ist offensichtlich falsch, siehe Antwort von @ Glen_b ). In meiner Antwort auf den Unterschied zwischen Logit- und Probit-Modellen (der sich lohnt, obwohl er nicht ganz derselbe ist), argumentiere ich, dass Verknüpfungsfunktionen basierend auf folgenden Kriterien ausgewählt werden sollten:

    1. Kenntnis der Antwortverteilung,
    2. Theoretische Überlegungen und
    3. Empirische Anpassung an die Daten.

    Innerhalb dieses Rahmens wäre die kanonische Verbindung für ein Gaußsches Modell die Identitätsverbindung. In diesem Fall haben Sie diese Möglichkeit, vermutlich aus theoretischen Gründen, abgelehnt. Ich vermute, Sie haben gedacht, dass keine negativen Werte annehmen kann (beachten Sie, dass "nicht passiert" nicht dasselbe ist). In diesem Fall ist das Protokoll von vornherein eine vernünftige Wahl, verhindert jedoch nicht nurY.Y.es wird nicht negativ, sondern induziert auch eine bestimmte Form der krummlinigen Beziehung. Mithilfe eines Standardplots von Residuen im Vergleich zu angepassten Werten (möglicherweise mit einer überlagerten Lößanpassung) können Sie feststellen, ob die in Ihren Daten enthaltene Krümmung der durch die Protokollverknüpfung auferlegten spezifischen Krümmung angemessen entspricht. Wie bereits erwähnt, können Sie auch versuchen, welche andere Transformation Ihren gewünschten theoretischen Kriterien entspricht, und die beiden Anpassungen direkt vergleichen.


16

Würde es zu weit gehen, zu behaupten, dass es meine Verteilungsentscheidung bestätigt?

Es hängt irgendwie davon ab, was Sie mit "validieren" genau meinen, aber ich würde sagen "ja, das geht zu weit" in der gleichen Weise, wie Sie nicht wirklich sagen können "die Null wird als wahr gezeigt" (insbesondere mit Punktnullen, aber zumindest in gewissem Sinne allgemeiner). Man kann nur wirklich sagen "Nun, wir haben keine starken Beweise dafür, dass es falsch ist". Aber wir erwarten auf keinen Fall, dass unsere Modelle perfekt sind, sie sind Modelle . Was zählt, wie Box & Draper sagte, ist " wie falsch müssen sie sein, um nicht nützlich zu sein? "

Einer dieser beiden vorhergehenden Sätze:

Dies scheint mir nahezulegen, dass die Wahl einer Gaußschen Verteilung durchaus vernünftig war. Oder zumindest, dass die Residuen mit der Verteilung übereinstimmen, die ich in meinem Modell verwendet habe.

Beschreiben Sie viel genauer, worauf Ihre Diagnose hinweist - nicht, dass ein Gauß-Modell mit Protokollverknüpfung richtig war -, sondern dass es vernünftig war oder mit den Daten übereinstimmt.

Ich habe eine Log-Link-Funktion gewählt, weil meine Antwortvariable immer positiv ist, aber ich möchte eine Art Bestätigung, dass es eine gute Wahl war.

Wenn Sie wissen, dass es positiv sein muss, muss sein Mittelwert positiv sein. Es ist sinnvoll, ein Modell zu wählen, das dem zumindest entspricht. Ich weiß nicht, ob es eine gute Wahl ist (es könnte auch viel bessere geben), aber es ist eine vernünftige Sache; Es könnte mein Ausgangspunkt sein. [Wenn die Variable selbst jedoch unbedingt positiv ist, würde mein erster Gedanke eher Gamma mit log-link als Gauß'sch sein. "Notwendigerweise positiv" deutet sowohl auf eine Schiefe als auch auf eine Varianz hin, die sich mit dem Mittelwert ändert.]

F2: Gibt es irgendwelche Tests, wie das Überprüfen der Residuen auf die Wahl der Verteilung, die meine Wahl der Verbindungsfunktion unterstützen können?

Es hört sich so an, als ob Sie "Test" nicht als "formalen Hypothesentest", sondern als "diagnostische Prüfung" bezeichnen.

In beiden Fällen lautet die Antwort: Ja, das gibt es.

Ein formaler Hypothesentest ist der Goodness of Link-Test von Pregibon [1].

Dies basiert auf der Einbettung der Verknüpfungsfunktion in eine Box-Cox-Familie, um einen Hypothesentest des Box-Cox-Parameters durchzuführen.

Siehe auch die kurze Erörterung von Pregibons Test in Breslow (1996) [2] ( siehe S. 14 ).

η=G(μ)x

richW=(yich-μ^ich)(ημ)

(worauf ich mich für diese Einschätzung stützen würde), oder vielleicht durch Betrachten von Abweichungen von der Linearität in Teilresten, mit einem Plot für jeden Prädiktor (siehe zum Beispiel Hardin und Hilbe, Verallgemeinerte lineare Modelle und Erweiterungen, 2. Aufl., Abschnitt 4.5 .4 p54, für die Definition),

rkichT=(yich-μ^ich)(ημ)+xichkβ^k

=richW+xichkβ^k

In Fällen, in denen die Daten eine Transformation durch die Verknüpfungsfunktion zulassen, können Sie auf die gleiche Weise nach Linearität suchen wie bei der linearen Regression (obwohl Sie eine Schiefe und möglicherweise eine Heteroskedastizität hinterlassen haben).

Bei kategorialen Prädiktoren ist die Auswahl der Verknüpfungsfunktion eher eine Frage der Bequemlichkeit oder Interpretierbarkeit. Die Anpassung sollte dieselbe sein (daher ist keine Bewertung für sie erforderlich).

Sie können eine Diagnose auch auf den Ansatz von Pregibon stützen.

Diese bilden keine vollständige Liste. Sie können andere besprochene Diagnosen finden.

[Trotzdem stimme ich der Einschätzung von gung zu, dass die Wahl der Verbindungsfunktion anfangs, soweit möglich, auf theoretischen Überlegungen beruhen sollte.]

Siehe auch einige der Diskussionen in diesem Beitrag , die zumindest teilweise relevant sind.

[1]: Pregibon, D. (1980),
"Goodness of Link Tests for Generalized Linear Models",
Zeitschrift der Royal Statistical Society. Reihe C (Angewandte Statistik) ,
Bd. 29, Nr. 1, S. 15-23.

[2]: Breslow NE (1996),
"Generalized Linear Models: Überprüfung von Annahmen und Stärkung von Schlussfolgerungen",
Statistica Applicata 8 , 23-41.
pdf

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.