Welche Diagnose kann die Verwendung einer bestimmten GLM-Familie validieren?


19

Das scheint so elementar zu sein, aber ich bleibe immer an diesem Punkt stecken ...

Die meisten Daten, mit denen ich zu tun habe, sind nicht normal, und die meisten Analysen basieren auf einer GLM-Struktur. Für meine aktuelle Analyse habe ich eine Antwortvariable, die "Gehgeschwindigkeit" (Meter / Minute) ist. Es fällt mir leicht zu erkennen, dass ich OLS nicht verwenden kann, aber dann habe ich große Unsicherheit darüber, welche Familie (Gamma, Weibull usw.) geeignet ist!

Ich benutze Stata und sehe mir Diagnosen wie Residuen und Heteroskedastizität, Residuen vs. angepasste Werte usw. an.

Mir ist bekannt, dass Zähldaten die Form einer Rate haben können (z. B. Inzidenzraten) und Gamma (das Analogon zu überdispersen diskreten negativen Binomialmodellen) verwendet haben, aber ich möchte nur, dass eine "rauchende Waffe" JA sagt, SIE HABEN DAS RECHT FAMILIE. Ist die Betrachtung der standardisierten Residuen im Vergleich zu den angepassten Werten der einzige und beste Weg, dies zu tun? Ich möchte ein gemischtes Modell verwenden, um auch eine gewisse Hierarchie in den Daten zu berücksichtigen, muss aber zuerst herausfinden, welche Familie meine Antwortvariable am besten beschreibt.

Jede Hilfe dankbar. Stata-Sprache besonders geschätzt!


4
" Ich möchte, dass eine" rauchende Waffe "JA sagt, SIE HABEN DIE RICHTIGE FAMILIE " - nichts wird Ihnen das sagen. Das Beste, auf das Sie hoffen können, ist eine Familie, die nicht eindeutig falsch liegt. Es gibt viele Möglichkeiten, eine Verteilungsfamilie auszuwählen, aber im Allgemeinen besteht die Tendenz darin, a priori oder theoretische Überlegungen und die Angaben aus den Daten selbst zu kombinieren.
Glen_b -Reinstate Monica

Antworten:


14

Ich habe einige Tipps:

(1) Wie Residuen mit Anpassungen verglichen werden sollten, ist nicht immer ganz klar. Daher ist es gut, mit der Diagnose für bestimmte Modelle vertraut zu sein. In logistischen Regressionsmodellen wird zum Beispiel die Hosmer-Lemeshow-Statistik verwendet, um die Anpassungsgüte zu bewerten. Hebelwerte sind in der Regel klein, wenn die geschätzten Gewinnchancen sehr groß, sehr klein oder ungefähr gleich sind. & bald.

(2) Manchmal kann eine Modellfamilie als Sonderfall einer anderen angesehen werden, sodass Sie einen Hypothesentest für einen Parameter verwenden können, um die Auswahl zu erleichtern. Exponential vs Weibull zum Beispiel.

(3) Das Informationskriterium von Akaike ist hilfreich bei der Auswahl zwischen verschiedenen Modellen, einschließlich der Auswahl zwischen verschiedenen Familien.

(4) Theoretisches / empirisches Wissen darüber, was Sie modellieren, schränkt das Feld plausibler Modelle ein.

Aber es gibt keinen automatischen Weg, die "richtige" Familie zu finden. reale Daten können aus so komplizierten Distributionen stammen, wie Sie möchten, und die Komplexität der Modelle, deren Anpassung sich lohnt, steigt mit der Datenmenge, über die Sie verfügen. Dies ist Teil von Box 'Grundsatz, dass keine Modelle stimmen, aber einige nützlich sind.

Kommentar von Re @ gung: Es scheint, dass der häufig verwendete Hosmer-Lemeshow-Test (a) überraschend empfindlich auf die Auswahl von Behältern reagiert und (b) im Allgemeinen weniger leistungsfähig ist als einige andere Tests gegen einige relevante Klassen alternativer Hypothesen. Das schadet Punkt (1) nicht: Es ist auch gut, auf dem Laufenden zu sein.


Vielen Dank! Ihre Vorschläge sind kurz und präzise. Aufgrund der Struktur meiner Antwortvariablen (positiv, kontinuierlich, aber stark verzerrt) kann ich nur eine begrenzte Anzahl von Familien verwenden. In der exponentiellen Familie scheint Gamma wirklich die einzige Option zu sein. In der Zwischenzeit habe ich einige nützliche Tools von NJ Cox gefunden, wie sie in Stata Jounal 5 (2) zu finden sind: 259-273 - Gammafit (schätzt Form- und Skalenparameter) und Dpplot ermöglicht die Überlagerung des Dichtewahrscheinlichkeitsdiagramms und meiner Antwortvariablen (kann sein) Dies geschieht mit vielen Distributionen und ermöglicht mir, die beste Familie mit meinen Daten abzugleichen. Danke auch für andere Vorschläge!
RLang

1
Beachten Sie, dass der Hosmer-Lemeshow-GoF-Test nachweislich von der verwendeten Klassifizierung abhängt bzw. unzuverlässig ist.
gung - Wiedereinsetzung von Monica

@Gung, es hängt ganz klar von der verwendeten Gruppierung ab - nicht ideal, aber nicht sicher, ob das ein großes Problem ist, es sei denn, Sie fangen an, mit den Gruppierungen zu spielen, um das gewünschte Ergebnis zu erzielen. Wie ist es unzuverlässig und welche anderen Tests sind besser?
Scortchi


1
Sie haben Recht, dass "ungültig" zu stark ist; Ich habe nur "unzuverlässig" gesagt und Harrell verwendet "veraltet".
gung - Wiedereinsetzung von Monica

8

Möglicherweise ist es interessant, die Vignette (Einführungshandbuch) für das R-Paket zu lesen fitdistrplus. Ich erkenne, dass Sie es vorziehen, in Stata zu arbeiten, aber ich denke, die Vignette wird so selbsterklärend sein, dass Sie einige Einblicke in den Prozess erhalten, aus Daten auf Verteilungsfamilien zu schließen. Sie werden wahrscheinlich in der Lage sein, einige der Ideen in Stata über Ihren eigenen Code umzusetzen. Insbesondere denke ich, dass das Cullen- und Frey-Diagramm, wenn es in Stata implementiert ist / werden könnte, für Sie hilfreich sein kann.


Ich habe dieses Problem noch einmal wiederholt und bin zu R gewechselt und verwende Zuur und Ieno als Anleitung. Immer noch viele Probleme, aber im Allgemeinen denke ich, dass meine Modelldiagnose durch die Verwendung von varIdent so aussieht, als ob sie eine geringfügige Heterogenität aufweist. Das Plotten von Residuen gegen angepasste sieht gut aus, Residuen gegen jede Kovariate liefern einige irre Ergebnisse für eine meiner Modellvariablen (Höhe) - meistens eine Funktion der kleinen Stichprobengröße in großer Höhe. Vielen Dank für Ihren Kommentar zu fitdistrplus. Jetzt, wo ich R und Rstudio benutze (liebe es!), Wird dies praktisch sein!
RLang

1
Die Verbindung ist unterbrochen. Ist dies das Intro-Handbuch, über das Sie gesprochen haben? cran.r-project.org/doc/contrib/Ricci-distributions-de.pdf Oder war es das hier: cran.r-project.org/web/packages/fitdistrplus/vignettes/…
emschorsch

Der letztere Link scheint eine andere Version der Vignette zu sein, auf die ich mich bezog.
gung - Reinstate Monica
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.