Sind Überdispersionstests in GLMs tatsächlich * nützlich *?

Das Phänomen der "Überdispersion" in einem GLM tritt immer dann auf, wenn wir ein Modell verwenden, das die Varianz der Antwortvariablen einschränkt, und die Daten eine größere Varianz aufweisen, als es die Modellbeschränkung zulässt. Dies tritt häufig bei der Modellierung von Zähldaten mit einem Poisson-GLM auf und kann durch bekannte Tests diagnostiziert werden. Wenn Tests ergeben, dass statistisch signifikante Hinweise auf eine Überdispersion vorliegen, wird das Modell in der Regel verallgemeinert, indem eine breitere Verteilungsfamilie verwendet wird, die den Varianzparameter von der unter dem ursprünglichen Modell auftretenden Einschränkung befreit. Im Fall einer Poisson-GLM ist es üblich, entweder auf eine negativ-binomische oder eine quasi-Poisson-GLM zu verallgemeinern.

Diese Situation ist schwanger mit einem offensichtlichen Einwand. Warum überhaupt mit einem Poisson GLM beginnen? Man kann direkt mit den breiteren Verteilungsformen beginnen, die einen (relativ) freien Varianzparameter haben, und es ermöglichen, dass der Varianzparameter an die Daten angepasst wird, wobei Überdispersionstests vollständig ignoriert werden. In anderen Situationen, in denen wir Datenanalysen durchführen, verwenden wir fast immer Verteilungsformulare, die mindestens die ersten beiden Momente freigeben. Warum also hier eine Ausnahme machen?

Meine Frage: Gibt es einen guten Grund, mit einer Verteilung zu beginnen, die die Varianz festlegt (z. B. die Poisson-Verteilung) und dann einen Überdispersionstest durchzuführen? Wie ist dieser Vorgang mit dem vollständigen Überspringen dieser Übung und dem direkten Übergang zu allgemeineren Modellen (z. B. Negativ-Binomial, Quasi-Poisson usw.) zu vergleichen? Mit anderen Worten, warum nicht immer eine Verteilung mit einem freien Varianzparameter verwenden?

— Setzen Sie Monica wieder ein
quelle

Ich gehe davon aus, dass, wenn der zugrunde liegende Wert wirklich poisson ist, Ihr glm-Ergebnis nicht die allgemein bekannten guten Eigenschaften aufweist, z Modell wurde verwendet. Schätzungen sind wahrscheinlich nicht einmal unvoreingenommen oder MLE. Aber das ist nur meine Intuition und ich könnte mich irren. Ich wäre gespannt, was eine gute Antwort ist.

— mlofton

Nach meiner Erfahrung ist das Testen auf Überstreuung (paradoxerweise) hauptsächlich dann von Nutzen, wenn Sie (aufgrund der Kenntnis des Datenerzeugungsprozesses) wissen, dass Überstreuung nicht vorhanden sein kann. In diesem Zusammenhang zeigt das Testen auf Überstreuung an, ob das lineare Modell das gesamte Signal in den Daten aufnimmt. Ist dies nicht der Fall, sollten weitere Kovariaten zum Modell hinzugefügt werden. Wenn ja, können mehr Kovariaten nicht helfen.

— Gordon Smyth

@ GordonSmyth: Ich denke, das ist eine gute Antwort. Wenn Sie das nicht in eine eigene Antwort umwandeln möchten, falte ich es in meine.

— Cliff AB

@GordonSmyth, das sich mit einer Sache befasst, die mich bei der Analyse von Abweichungen als Test der Anpassungsgüte immer gestört hat: Fehlende Kovariaten werden mit Überdispersion verwechselt. Es deutet auf einige Probleme hin, wie oft das Material unterrichtet wird. Ich unterrichte eine Klasse in Kategorie und die Lehrbücher machen diesen Punkt nicht sehr stark.

— Kerl

@guy Ja, das stimmt, und die Leute neigen dazu anzunehmen, dass die verbleibende Abweichung immer chisquare verteilt ist, was häufig nicht der Fall ist. Wir haben versucht, diese Punkte in unserem kürzlich erschienenen Lehrbuch doi.org/10.1007/978-1-4419-0118-7 zu verbessern, aber es ist schwierig, alles innerhalb der räumlichen Grenzen abzudecken.

— Gordon Smyth

Antworten:

Im Prinzip stimme ich tatsächlich zu, dass es in 99% der Fälle besser ist, einfach das flexiblere Modell zu verwenden. Nach alledem sind hier zweieinhalb Argumente dafür, warum Sie es vielleicht nicht tun.

(1) Weniger flexibel bedeutet effizientere Schätzungen. Da die Varianz - Parameter sind in der Regel weniger stabil als mittlere Parameter sein, Ihre Annahme fester Mittelwert-Varianz - Beziehung kann stabilisieren Standardfehler mehr.

(2) Modellprüfung. Ich habe mit Physikern zusammengearbeitet, die glauben, dass verschiedene Messungen durch Poisson-Verteilungen aufgrund der theoretischen Physik beschrieben werden können. Wenn wir die Hypothese ablehnen, dass Mittelwert = Varianz ist, haben wir Beweise gegen die Poisson-Verteilungshypothese. Wie in einem Kommentar von @GordonSmyth ausgeführt, gibt es Hinweise darauf, dass wichtige Faktoren fehlen , wenn Sie Grund zu der Annahme haben, dass eine bestimmte Messung einer Poisson-Verteilung folgen sollte .

$Var[y] = \alpha E[y]$ $\alpha \neq 1$

— Cliff AB
quelle

Zu 2.5: Es gibt natürlich negative Binomial- und GLMM-Effekte mit zufälligen Effekten, die diese Einschränkung nicht haben.

— Björn,

@ Björn: deswegen ist es nur ein halbes argument; Gilt nur für Quasi-Likelihood-Methoden. Soweit ich weiß, gibt es keine Wahrscheinlichkeit basierte Methoden für unter Dispersion, obwohl kann dies mit einem Quasi-Likelihood - Modell analysiert werden.

— Cliff AB

Ebenfalls zu 2.5: Nach meinem Verständnis gibt es keine exponentielle Dispersionsfamilie , die die gewünschte Beziehung erfüllt. Das heißt, die Quasi-Punktzahl entspricht keiner echten Punktzahl. Das bedeutet nicht, dass es keine Verteilungsfamilien für Zähldaten gibt, die die gewünschte Beziehung erfüllen. Es sollte viele solcher Familien geben.

— Kerl

@CliffAB für unzureichend verteilte Zähldaten gibt es das Conway-Maxwell-Poisson-Modell: en.m.wikipedia.org/wiki/… , das in einigen R-Paketen implementiert ist.

— Dimitris Rizopoulos

Wenn das Modell für die Vorhersage verwendet werden soll, ist ein weiterer Grund, das einfachere Modell zu bevorzugen, dass das einfachere Modell bessere Vorhersagequalitäten hat, wenn alles andere gleich ist. Ich denke an AIC, BIC sowie PAC im Allgemeinen.

— meh

Obwohl dies meine eigene Frage ist, werde ich auch meine eigenen zwei Cent als Antwort posten, damit wir die Anzahl der Perspektiven auf diese Frage erhöhen. Hier geht es darum, ob es sinnvoll ist, Daten zunächst mit einer Ein-Parameter-Verteilung zu versehen. Wenn Sie eine Ein-Parameter-Verteilung verwenden (z. B. das Poisson-GLM oder ein Binomial-GLM mit festem Versuchsparameter), ist die Varianz kein freier Parameter und muss stattdessen eine Funktion des Mittelwerts sein. Dies bedeutet, dass es nicht ratsam ist, eine Ein-Parameter-Verteilung an Daten anzupassen, wenn Sie nicht sicher sind, ob die Varianz der Struktur dieser Verteilung entspricht.

Das Anpassen von Ein-Parameter-Verteilungen an Daten ist fast immer eine schlechte Idee: Daten sind häufig unübersichtlicher als von vorgeschlagenen Modellen angegeben, und selbst wenn theoretische Gründe zu der Annahme bestehen, dass ein bestimmtes Ein-Parameter-Modell erhalten werden kann, ist dies häufig der Fall stammen tatsächlich aus einer Mischung dieser Ein-Parameter-Verteilung mit einer Reihe von Parameterwerten. Dies entspricht häufig einem breiteren Modell, z. B. einer Zwei-Parameter-Verteilung, die eine größere Freiheit für die Varianz ermöglicht. Wie nachstehend erläutert, gilt dies für den Poisson-GLM im Fall von Zähldaten.

Wie in der Frage ausgeführt, ist es in den meisten statistischen Anwendungen üblich, Verteilungsformen zu verwenden, bei denen zumindest die ersten beiden Momente frei variieren können. Dies stellt sicher, dass das angepasste Modell es den Daten ermöglicht, den abgeleiteten Mittelwert und die Varianz zu diktieren, anstatt dass diese durch das Modell künstlich eingeschränkt werden. Wenn dieser zweite Parameter verwendet wird, verliert das Modell nur einen Freiheitsgrad. Dies ist ein geringfügiger Verlust im Vergleich zu dem Vorteil, dass die Varianz anhand der Daten geschätzt werden kann. Man kann diese Argumentation natürlich erweitern und einen dritten Parameter hinzufügen, um die Anpassung der Schiefe zu ermöglichen, einen vierten, um die Anpassung der Kurtosis zu ermöglichen, usw.

Mit einigen äußerst geringfügigen Ausnahmen ist ein Poisson-GLM ein schlechtes Modell: Nach meiner Erfahrung ist die Anpassung einer Poisson-Verteilung zum Zählen von Daten fast immer eine schlechte Idee. Bei Zähldaten ist die Varianz der Daten im Verhältnis zur Poisson-Verteilung sehr häufig überstreut. Sogar in Situationen, in denen die Theorie auf eine Poisson-Verteilung hinweist, ist das beste Modell oft eine Mischung aus Poisson-Verteilungen, bei denen die Varianz zu einem freien Parameter wird. In der Tat ist im Fall von Zähldaten die Negativ-Binomial-Verteilung eine Poisson-Mischung mit einer Gammaverteilung für den RatenparameterSelbst wenn theoretische Gründe zu der Annahme bestehen, dass die Zählungen gemäß dem Prozess einer Poisson-Verteilung eintreffen, ist es häufig so, dass es zu einer „Überdispersion“ kommt und die Negativ-Binomial-Verteilung viel besser passt.

Das Anpassen eines Poisson-GLM zum Zählen von Daten und das anschließende Durchführen eines statistischen Tests zur Überprüfung auf "Überstreuung" ist ein Anachronismus und wird kaum empfohlen. Bei anderen Formen der statistischen Analyse beginnen wir nicht mit einer Verteilung mit zwei Parametern, sondern wählen willkürlich eine Varianzbeschränkung aus und testen diese Einschränkung, um zu versuchen, einen Parameter aus der Verteilung zu entfernen. Auf diese Weise erstellen wir ein umständliches Hybridverfahren, das aus einem ersten Hypothesentest für die Modellauswahl und dem tatsächlichen Modell (entweder Poisson oder eine breitere Verteilung) besteht. In vielen Zusammenhängen hat sich gezeigt, dass diese Art der Erstellung von Hybridmodellen aus einem ersten Modellauswahl-Test zu schlechten Gesamtmodellen führt.

Eine analoge Situation, in der eine ähnliche Hybridmethode angewendet wurde, besteht in T-Tests der mittleren Differenz. Früher wurde in Statistikkursen empfohlen, zunächst den Levene-Test (oder auch nur einige sehr viel einfachere "Faustregeln") zu verwenden, um die Varianzgleichheit zwischen zwei Populationen zu überprüfen, und dann, wenn die Daten diesen Test "bestanden" haben Verwenden Sie den Student-T-Test, der die gleiche Varianz annimmt. Wenn die Daten den Test "nicht bestanden" haben, würden Sie stattdessen den Welch-T-Test verwenden. Dies ist eigentlich eine wirklich schlechte Prozedur (siehe zB hier und hier). Es ist viel besser, nur den letzteren Test zu verwenden, der keine Annahme über die Varianz macht, als einen umständlichen Verbindungstest zu erstellen, der einen vorläufigen Hypothesentest zusammenfasst und diesen dann zur Auswahl des Modells verwendet.

Bei Zähldaten erhalten Sie im Allgemeinen gute erste Ergebnisse, wenn Sie ein Zwei-Parameter-Modell anpassen, z. B. ein Negativ-Binomial- oder Quasi-Poisson-Modell. (Beachten Sie, dass letztere keine reelle Verteilung ist, aber dennoch ein vernünftiges Zwei-Parameter-Modell liefert.) Wenn überhaupt eine weitere Verallgemeinerung erforderlich ist, wird in der Regel die Null-Inflation hinzugefügt, wenn eine übermäßige Anzahl von Nullen vorliegt in den Daten. Die Beschränkung auf ein Poisson-GLM ist eine künstliche und sinnlose Modellwahl, die durch Tests auf Überdispersion nicht wesentlich verbessert wird.

Okay, hier sind die kleinen Ausnahmen: Die einzigen wirklichen Ausnahmen zu den oben genannten sind zwei Situationen:

(1) Sie haben äußerst starke a priori theoretische Gründe für die Annahme, dass die Annahmen für die Ein-Parameter-Verteilung erfüllt sind, und ein Teil der Analyse besteht darin, dieses theoretische Modell anhand der Daten zu testen. oder

(2) Aus einem anderen (seltsamen) Grund besteht der Zweck Ihrer Analyse darin, einen Hypothesentest für die Varianz der Daten durchzuführen. Daher möchten Sie diese Varianz tatsächlich auf diese hypothetische Einschränkung beschränken und dann diese Hypothese testen.

Diese Situationen sind sehr selten. Sie entstehen in der Regel nur dann, wenn a priori fundierte theoretische Kenntnisse über den Mechanismus der Datenerzeugung vorliegen und der Zweck der Analyse darin besteht, diese zugrunde liegende Theorie zu testen. Dies kann in einem äußerst begrenzten Anwendungsbereich der Fall sein, in dem Daten unter streng kontrollierten Bedingungen (z. B. in der Physik) generiert werden.

— Setzen Sie Monica wieder ein
quelle