GLM mit fortlaufenden Daten, die auf Null gestapelt sind


11

Ich versuche, ein Modell zu erstellen, um abzuschätzen, wie gut sich katastrophale Krankheiten wie TB, AIDS usw. auf die Ausgaben für Krankenhausaufenthalte auswirken. Ich habe "Kosten pro Krankenhausaufenthalt" als abhängige Variable und verschiedene individuelle Marker als unabhängige Variablen, von denen fast alle Dummy-Werte wie Geschlecht, Status des Haushaltsvorstands, Armutsstatus und natürlich ein Dummy für die Krankheit (plus Alter) sind und Alter im Quadrat) und eine Reihe von Interaktionsbegriffen.

Wie zu erwarten ist, gibt es eine beträchtliche Menge - und ich meine eine Menge - von Daten, die auf Null gestapelt sind (dh keine Ausgaben für Krankenhausaufenthalte im Referenzzeitraum von 12 Monaten). Was wäre der beste Weg, um mit solchen Daten umzugehen?

Ab sofort habe ich beschlossen, die Kosten ln(1+cost)so umzurechnen, dass alle Beobachtungen berücksichtigt werden, und dann ein lineares Modell auszuführen. Bin ich auf dem richtigen Weg?


1
Ist Ihre Antwort tatsächlich eine Zählung? Der Begriff, den Sie suchen, ist Nullinflation .
Gung - Reinstate Monica

2
Man kann auch kontinuierliche Verteilungen ohne Inflation haben; Es gibt zum Beispiel Gammamodelle ohne Inflation.
Glen_b -Reinstate Monica

1
@Glen_b, das hatte ich mir vorgestellt. Ich habe aber noch nie einen gemacht. Frank Harrells Vorschlag von OLR ist eine clevere Möglichkeit, das Problem ebenfalls zu umgehen.
Gung - Reinstate Monica

Antworten:



8

Das Verklumpen bei 0 wird als "Nullinflation" bezeichnet. Bei weitem die häufigsten Fälle sind Zählmodelle, die zu einer Poisson-Inflation ohne Inflation und einer negativen binomialen Regression ohne Inflation führen. Es gibt jedoch Möglichkeiten, die Nullinflation mit real positiven Werten zu modellieren (z. B. das Null-Inflations-Gammamodell).

Siehe Min und Agresti, 2002, Modellierung nicht negativer Daten mit Verklumpung bei Null für eine Überprüfung dieser Methoden.


1

Der Vorschlag, ein Poisson-Modell ohne Inflation zu verwenden, ist ein interessanter Anfang. Die gemeinsame Modellierung der Wahrscheinlichkeit krankheitsbedingter Kosten sowie des Prozesses, wie sich diese Kosten im Krankheitsfall herausstellen, hat einige Vorteile . Es hat die Einschränkung, dass es eine strenge Struktur für die Form des Ergebnisses auferlegt, vorausgesetzt, dass Kosten angefallen sind (z. B. eine spezifische Mittelwert-Varianz-Beziehung und ein positives ganzzahliges Ergebnis ... letzteres kann für einige gelockert werden Modellierungszwecke).

Wenn Sie damit einverstanden sind, die krankheitsbedingte Aufnahme und die krankheitsbedingten Kosten, die von Zulassungsprozessen abhängig sind, unabhängig zu behandeln, können Sie dies erweitern, indem Sie zunächst den binären Prozess von j / n modellieren. Haben Sie krankheitsbedingte Kosten angefallen? Dies ist ein einfaches logistisches Regressionsmodell, mit dem Sie Risikofaktoren und Prävalenz bewerten können. Vor diesem Hintergrund können Sie eine Analyse auf die Teilmenge der Personen beschränken, für die Kosten angefallen sind, und den tatsächlichen Kostenprozess mithilfe einer Vielzahl von Modellierungstechniken modellieren. Poisson ist gut, Quasi-Poisson wäre besser (unter Berücksichtigung kleiner nicht gemessener Kovariationsquellen in den Daten und Abweichungen von den Modellannahmen). Bei der Modellierung des kontinuierlichen Kostenprozesses ist der Himmel jedoch die Grenze.

Wenn Sie die Korrelation von Parametern im Prozess unbedingt modellieren müssen, können Sie Bootstrap SE-Schätzungen verwenden. Ich sehe keinen Grund, warum dies ungültig wäre, wäre aber neugierig, die Eingaben anderer zu hören, wenn dies falsch sein könnte. Im Allgemeinen denke ich, dass dies zwei getrennte Fragen sind und als solche behandelt werden sollten, um eine gültige Schlussfolgerung zu ziehen.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.