Ich versuche, ein Modell zu erstellen, um abzuschätzen, wie gut sich katastrophale Krankheiten wie TB, AIDS usw. auf die Ausgaben für Krankenhausaufenthalte auswirken. Ich habe "Kosten pro Krankenhausaufenthalt" als abhängige Variable und verschiedene individuelle Marker als unabhängige Variablen, von denen fast alle Dummy-Werte wie Geschlecht, Status des Haushaltsvorstands, Armutsstatus und natürlich ein Dummy für die Krankheit (plus Alter) sind und Alter im Quadrat) und eine Reihe von Interaktionsbegriffen.
Wie zu erwarten ist, gibt es eine beträchtliche Menge - und ich meine eine Menge - von Daten, die auf Null gestapelt sind (dh keine Ausgaben für Krankenhausaufenthalte im Referenzzeitraum von 12 Monaten). Was wäre der beste Weg, um mit solchen Daten umzugehen?
Ab sofort habe ich beschlossen, die Kosten ln(1+cost)
so umzurechnen, dass alle Beobachtungen berücksichtigt werden, und dann ein lineares Modell auszuführen. Bin ich auf dem richtigen Weg?