Wie entscheide ich mich für eine GLM-Familie?


17

Ich habe Fischdichtedaten, die ich versuche, zwischen verschiedenen Erfassungstechniken zu vergleichen, die Daten haben viele Nullen, und das Histogramm sieht für eine Poisson-Verteilung angemessen aus, außer dass es sich bei den Dichten nicht um ganzzahlige Daten handelt. Ich bin relativ neu bei GLMs und habe in den letzten Tagen online gesucht, wie man die zu verwendende Distribution erkennt. Es ist mir jedoch völlig misslungen, Ressourcen zu finden, die bei dieser Entscheidung helfen. Ein Beispielhistogramm der Daten sieht folgendermaßen aus:Beispiel-Histogramm

Ich habe keine Ahnung, wie ich mich für die geeignete Familie für den GLM entscheiden soll. Wenn jemand einen Rat hat oder mir eine Ressource geben könnte, die ich überprüfen sollte, wäre das fantastisch.


1
Was genau ist "Fischdichte"? Ist es eine Anzahl von Fischen pro Volumeneinheit des Sees, zB?
gung - Wiedereinstellung von Monica

Es ist die Anzahl der Fische pro Flächeneinheit (in diesem Fall Quadratmeter). Wir haben visuelle Vermessungstools verwendet, die anhand der Anzahl der beobachteten Fische dividiert durch die vom Tool vermesste Fläche berechnet werden. Wir mussten die Dichte verwenden, um zwischen den Werkzeugen zu standardisieren, da sie sehr unterschiedliche Flächengrößen erfassen. Andernfalls könnte ich einfach Zähldaten verwenden und mich an eine Poisson-Verteilung halten.
C. Denney

7
Mein Rat - gehen Sie zurück zu den Zähldaten und verwenden Sie den "Bereich" als Versatz in einem Modell mit einem Log-Link --- aber ich weiß nicht, dass der Poisson sehr gut passt (es ist ein bisschen schwer zu erraten, da Ihr Histogramm zeigt nur die Randverteilung und nicht die bedingten Verteilungen an, die der GLM modellieren würde. Wenn der Poisson nicht stark genug ist, funktioniert möglicherweise ein negatives Binomial, oder Sie benötigen Modelle
ohne Luftdruck

Ich mache Poisson-Modellierung den ganzen Tag und Glen_bs Kommentar ist die kanonische Antwort.
Paul

2
Ein Nachtrag - Die Poisson-Modellierung ist theoretisch gut begründet, wenn die Beobachtungseinheiten (in diesem Fall zählen Sie vermutlich einzelne Fische?) Unabhängig voneinander über das Beobachtungsfeld verteilt sind, wie zufällig gestreute Sandkörner. Unter dieser Annahme kann es zu Abweichungen in der Dichte kommen, aber die Position eines Fisches impliziert nichts über die Position anderer Fische. Aber seien Sie gewarnt, diese Annahme könnte in der Praxis verletzt werden, weil sich Fische beispielsweise in Schulen sammeln und ihre Positionen dann nicht mehr unabhängig voneinander sind.
Paul

Antworten:


8

GLM-Familien umfassen eine Verknüpfungsfunktion sowie eine Mittelwert-Varianz-Beziehung. Bei Poisson-GLMs ist die Verknüpfungsfunktion ein Protokoll, und die Mittelwert-Varianz-Beziehung ist die Identität. Trotz der Warnungen, die Ihnen die meisten statistischen Programme geben, ist es durchaus sinnvoll, eine Beziehung in kontinuierlichen Daten zu modellieren, bei der die Beziehung zwischen zwei Variablen auf der logarithmischen Skala linear ist und die Varianz entsprechend dem Mittelwert zunimmt.

Dies ist im Wesentlichen der Grund für die Auswahl der Verknüpfungs- und Varianzfunktion in einem GLM. Natürlich gibt es mehrere Annahmen hinter diesem Prozess. Sie können ein robusteres Modell erstellen, indem Sie quasilikelihood (siehe ?quasipoisson) oder robuste Standardfehler (siehe Paket sandwichoder gee) verwenden.

Sie haben richtig festgestellt, dass in Ihren Daten viele Dichten 0 sind. Bei Poisson-Wahrscheinlichkeitsmodellen ist es angebracht, gelegentlich Nullen in den Daten abzutasten, sodass diese Beobachtungen nicht unbedingt zu Verzerrungen bei Ihren Schätzungen der Raten führen.

Um die Annahmen zu überprüfen, die hinter GLMs stehen, ist es normalerweise hilfreich, die Pearson-Residuen zu betrachten. Diese berücksichtigen die mittlere Varianzbeziehung und zeigen dem Statistiker, ob bestimmte Beobachtungen wie diese Nullen die Schätzung und die Ergebnisse in ungeheurer Weise beeinflussen.


22

Das verallgemeinerte lineare Modell wird als linearer Prädiktor definiert

η=Xβ

G

G(E(Y.|X))=η

X = X 1 , X 2 , , X kY.X=X1,X2,,XkY.X

E(Y.|X)=μ=G-1(η)

Das Modell kann also probabilistisch definiert werden als

Y.|Xf(μ,σ2)

ffY.Y.XY.X

Wenn Sie andererseits in der Praxis ein Vorhersagemodell erstellen möchten, möchten Sie möglicherweise nur wenige verschiedene Verteilungen testen und am Ende feststellen, dass eine von ihnen genauere Ergebnisse liefert als die anderen, auch wenn dies nicht der Fall ist theoretisch am "angemessensten" (z. B. sollten Sie theoretisch Poisson verwenden, in der Praxis funktioniert die lineare Standardregression jedoch am besten für Ihre Daten).


2

Dies ist eine ziemlich weit gefasste Frage, Sie fragen sich, wie man modelliert, und dafür gibt es ganze Bücher. Beachten Sie beispielsweise beim Umgang mit Zähldaten Folgendes:

Zusätzlich zur Auswahl einer Distribution müssen Sie eine Verknüpfungsfunktion auswählen. Mit Zähldaten können Sie Poisson- oder negative Binomialverteilung und Protokollverknüpfungsfunktion versuchen. Hier wird ein Grund für die Protokollverknüpfung angegeben: Anpassungsgüte und das zu wählende Modell für lineare Regression oder Poisson Wenn Ihre Patches sehr unterschiedliche Bereiche haben, sollten Sie möglicherweise den Logarithmus der Fläche als Versatz angeben, um die Anzahl pro Flächeneinheit und nicht absolut zu modellieren zählt. Eine Erläuterung des Versatzes in der Zähldatenregression finden Sie unter Wann wird ein Versatz in einer Poisson-Regression verwendet?

EDIT 

Diese Antwort wurde ursprünglich auf eine andere Frage gestellt, die mit dieser Frage zusammengeführt wurde. Während die Antwort allgemein gehalten ist, wurden Details eines Datensatzes und eines Problems kommentiert, die nicht mehr in Frage kommen. Die ursprüngliche Frage finden Sie unter folgendem Link: Familie in GLM - Wie wählen Sie die richtige aus?


Wir können die Fragen nicht lösen, @kjetil, nur die Entwickler können das (und sie mögen es wirklich nicht). Ich kann jedoch immer noch auf das ursprüngliche Q zugreifen. Eine Möglichkeit ist, dass ich den Inhalt in ein neues Q kopieren könnte (das von mir verfasst werden würde), Sie könnten dieses A in den neuen Thread kopieren und dann diesen Thread als Duplikat davon schließen. Es ist schwer zu sagen, ob das eine verrückte Idee ist oder ob es die Mühe wert ist, aber es ist das, was ich tun kann. Hast du eine Präferenz?
gung - Wiedereinsetzung von Monica

@gung: Sie können das tun, oder ich kann die Informationen von dieser Frage in die Antwort hier kopieren. Vielleicht ist das das Beste? (Ich kann bearbeiten, dass es aus dem Bearbeitungsverlauf scheint)
kjetil b halvorsen

1
@kjetilbhalvorsen zuallererst, entschuldigen Sie das Durcheinander, denn es war meine Idee, die Threads zusammenzuführen, da sie fast gleich zu sein schienen und beide gute Antworten enthielten. Mein erster Eindruck war, dass das Zusammenführen der Threads keinen Schaden anrichten würde. Vielleicht könnten Sie Ihrem zweiten Absatz einfach "Zum Beispiel, wenn Sie mit Zähldaten zu tun haben ..." hinzufügen ? Ihre Antwort beantwortet die allgemeine Frage "Wie wählt man eine Familie?" Frage, vielleicht lohnt es sich, es im allgemeinen Thread zu belassen?
Tim

1
@ Tim werde ich bearbeiten wie du sagst!
kjetil b halvorsen

Lassen Sie uns die Bearbeitung versuchen. Wenn Sie möchten, dass ich die Frage erneut stelle, rufen Sie mich erneut an. Ich werde jetzt die Flagge entlassen.
gung - Wiedereinstellung von Monica
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.