Wann werden Poisson-GLMs vs. geometrische GLMs vs. negative Binomial-GLMs für Zählungsdaten verwendet?


21

Ich versuche für mich selbst ein Layout zu erstellen, wenn es angebracht ist, welchen Regressionstyp (geometrisch, Poisson, negatives Binomial) mit Zähldaten innerhalb des GLM-Frameworks zu verwenden (nur 3 der 8 GLM-Verteilungen werden für Zähldaten verwendet, obwohl die meisten davon verwendet werden Ich habe Zentren über die negativen Binomial- und Poisson-Verteilungen gelesen.

Wann werden Poisson-GLMs vs. geometrische GLMs vs. negative Binomial-GLMs für Zählungsdaten verwendet?


Bisher habe ich folgende Logik: Sind es Zähldaten? Wenn ja, sind Mittelwert und Varianz ungleich? Wenn ja, negative binomische Regression. Wenn nein, Poisson-Regression. Gibt es keine Inflation? Wenn ja, null aufgepumptes Poisson oder null aufgepumptes negatives Binomial.

Frage 1 Es scheint keine eindeutige Angabe zu geben, wann welche verwendet werden soll. Gibt es etwas, um diese Entscheidung zu informieren? Soweit ich weiß, wird nach dem Umstieg auf ZIP die mittlere Varianz bei gleicher Annahme gelockert, sodass sie wieder der von NB ziemlich ähnlich ist.

Frage 2 Wo passt die geometrische Familie dazu oder welche Art von Fragen muss ich an die Daten stellen, wenn ich mich für die Verwendung einer geometrischen Familie in meiner Regression entscheide?

Frage 3 Ich sehe Leute, die das negative Binom und die Poisson-Verteilungen ständig vertauschen, aber nicht geometrisch. Ich vermute, dass es etwas ganz anderes gibt, wenn man es verwendet. Wenn ja, was ist das?

PS Ich habe ein (wahrscheinlich stark vereinfachtes, aus den Kommentaren abgeleitetes) Diagramm ( bearbeitbar ) meines aktuellen Verständnisses erstellt, wenn die Leute es zur Diskussion kommentieren / optimieren wollten. Zähldaten: GLM-Entscheidungsbaum


Ich kenne mich nur mit R-Programmierung aus, hoffe aber, dass dies hilft ... stats.stackexchange.com/questions/60643/…
RYO ENG Lian Hu

@RYOENG, das habe ich gesehen und den in meiner Frage beschriebenen Unterschied mit dem Logikbaum dargestellt. Mich interessiert vor allem eine weniger diskutierte Dist., Nämlich die geometrische Dist.
timothy.s.lau

(UPDATE) @Nick Cox 's Antwort hier: stats.stackexchange.com/questions/67547/when-to-use-gamma-glms scheint das Gefühl zu kapitulieren, das ich bisher bei der Suche gesehen habe um es jenseits einer leeren Antwort zu verwenden, wann immer es am besten funktioniert "
timothy.s.lau

@ Glen_b guten Fang, ich habe die Logik aktualisiert.
timothy.s.lau

Du bist wahrscheinlich sicher, dass du den Absatz über Modifikationen entfernst.
Glen_b

Antworten:


12

μ+1/θμ2μθα=1/θθ=θ=1

θ

Natürlich gibt es auch eine Menge anderer Einzel- oder Mehrfachparameter-Zähldatenverteilungen (einschließlich der von Ihnen erwähnten Verbindung Poisson), die manchmal zu erheblich besseren Anpassungen führen können oder auch nicht.

Zu den überschüssigen Nullen: Die beiden Standardstrategien bestehen darin, entweder eine Zähldatenverteilung ohne Aufblähung oder ein Hürdenmodell zu verwenden, das aus einem Binärmodell für Null oder höher und einem Zähldatenmodell mit Aufblähung ohne Aufblähung besteht. Wie Sie bereits erwähnt haben, können überschüssige Nullen und Überdispersionen verwechselt werden. Oft bleibt jedoch eine erhebliche Überdispersion bestehen, selbst nachdem das Modell auf überschüssige Nullen eingestellt wurde. Auch hier würde ich im Zweifelsfall empfehlen, ein NB-basiertes Null-Inflations- oder Hürdenmodell mit der gleichen Logik wie oben zu verwenden.

Haftungsausschluss: Dies ist eine sehr kurze und einfache Übersicht. Bei der Anwendung der Modelle in der Praxis würde ich empfehlen, ein Lehrbuch zum Thema zu lesen. Persönlich mag ich die Zähldatenbücher von Winkelmann und die von Cameron & Trivedi. Es gibt aber auch andere gute. Für eine R-basierte Diskussion könnte Ihnen auch unser Artikel in JSS ( http://www.jstatsoft.org/v27/i08/ ) gefallen .


4
μ+μ2>μ

3
μ

3
Wie Sie vielleicht aus meinen vorherigen Kommentaren ersehen haben: Ich bin kein Fan von solchen vereinfachenden Flussdiagrammen. Um ein gutes Modell zu wählen, muss man die Zusammenhänge zwischen den Modellen und ihre Beziehung zur praktischen Anwendung verstehen. Ob Sie sich für die Geometrie interessieren oder nicht, hängt von Ihrem Anwendungsfall ab. Ähnlich verhält es sich mit Null-Inflation vs. Hürde (die Sie in Ihrem Chart weggelassen haben). Schließlich muss die Reihenfolge der Fragen nicht für alle Anwendungen usw. gleich sein.
Achim Zeileis,

2
Ich verstehe, dass meine Skizze etwas vereinfacht wirkt. Aber für Studierende der Naturwissenschaften ist es nicht ungewöhnlich, mit eher simplen Schemata zu beginnen. Wenn Sie Physikunterricht genommen haben, sind Sie mit der Häufigkeit vertraut, mit der sie "Regeln", die Sie zuvor gelernt haben, ändern und brechen fachmännisches und differenziertes Verständnis. Um zu lernen, ich bin ein Doktorand, ich habe nur versucht, ein "richtigeres" Verständnis für die Grundlagen zu erlangen, die ich später aufbauen kann, z. B. Hürden usw. Vielen Dank für die Hinweise. Übrigens, ich werde die Lehrbücher untersuchen Sie erwähnte ebenso wie Ihr Papier.
timothy.s.lau

1
log(μi)=xiβ
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.