Ich möchte eine Regression durchführen, bei der der DV die Höhe der von Startups erhaltenen Mittel (in USD) ist. Natürlich enthält der DV viele Nullen (~ 55%) und hat eine kontinuierliche Verteilung für y> 0.
Im Allgemeinen verstehe ich, dass das Tobit-Modell (oder eine Variation davon) für die Modellierung dieses DV geeignet ist.
Obwohl ich jetzt seit Monaten lese und diskutiere, habe ich immer noch Schwierigkeiten, den genauen Unterschied zwischen dem Standardmodell von Tobit (1958), den von Cragg (1971) vorgeschlagenen zweiteiligen Erweiterungen und dem von Heckmann vertretenen Modell Tobit Typ 2, z (1974, 1976, 1979). Mein derzeitiges Verständnis ist, dass alle Modelle theoretisch mit unterschiedlichen Vor- und Nachteilen und möglichen Gründen anwendbar sein könnten, warum sie überhaupt nicht verwendet werden sollten (abhängig von den genauen Eigenschaften des Datensatzes).
Warum ich das Standard-Tobit-Modell ausgeschlossen habe
Für meine Anwendung habe ich das Standard-Tobit-Modell ausgeschlossen, da nur beide Prozesse von denselben Variablen gesteuert werden können, für die auch nur ein Koeffizient angegeben wird. Daher kann die Wirkung einer bestimmten Variablen in der Auswahl- und Ergebnisgleichung kein anderes Vorzeichen haben (was jedoch manchmal der Fall ist).
Tobit Typ 2 (oder Heckmann-Auswahlmodell) vs. zweiteiliges Modell (Cragg)
Mein bisheriges Verständnis ist, dass der Hauptunterschied zwischen den beiden Modellen darin besteht, dass zweiteilige Modelle nur echte Nullen annehmen, während Tobit Typ 2 auch (oder nur?) Unbeobachtete Nullen berücksichtigt (z. B. Personen, die im Allgemeinen nicht rauchen) eine 0 und Personen, die im Allgemeinen rauchen, sich aber zu einem bestimmten Zeitpunkt das Rauchen nicht leisten können, sind ebenfalls eine 0)
Dies trifft jedoch nicht ganz zu, da Cragg (1971) ursprünglich auch ein Doppelhürdenmodell vorgeschlagen hat, bei dem zwei Hürden überwunden werden müssen, bevor positive Werte von y beobachtet werden: "Zunächst muss eine positive Menge gewünscht werden [(dh ich bin Raucher oder nicht)]. Zweitens müssen günstige Umstände eintreten, damit der positive Wunsch erfüllt werden kann [(dh ich bin Raucher und ich habe genügend Geld, um mir das Rauchen leisten zu können)] ".
Ich denke, dies bedeutet, dass der Tobit-Typ II in der ersten Auswahlgleichung beide Arten von Nullen berücksichtigt (oder nur nicht beobachtet?) Und die Ergebnisgleichung bei y> 0 abgeschnitten wird. Das Cragg-Modell mit einer einzigen Hürde berücksichtigt nur echte Nullen in der Auswahl Gleichung und das Doppelhürden-Cragg-Modell berücksichtigen "unbeobachtete" Nullen während der Auswahl und "wahre" Nullen während der Ergebnisgleichung.
Fragen
Ist meine Aussage zu den drei Modellen richtig? Und was bedeutet das genau? Sind die Quellen von Nullen die einzigen / Hauptentscheidungskriterien? Wenn ja, würde dies für mich in Bezug auf meine Daten bedeuten: Startups entscheiden, ob sie eine Finanzierung beantragen oder nicht (erste Quelle von Nullen -> unbeobachtet), anschließend entscheidet der Markt, ob sie eine Finanzierung bereitstellen oder nicht (zweite Quelle von Nullen -> beobachtet). und im positiven Fall, wie viel (y> 0) -> Craggs Doppelhürdenmodell (das echte Doppelhürdenmodell, das oft fälschlicherweise mit dem Einzelhürdenmodell verwechselt wird)
Unabhängig von meiner (möglicherweise falschen) Schlussfolgerung: Was sind die wichtigsten Entscheidungskriterien, die ich berücksichtigen / diskutieren sollte, wenn ich mich für einen Modelltyp (Tobit Typ 2 (Heckmann)) oder ein zweiteiliges Modell (entweder eine einzelne Hürde (alle Nullen) entscheide? Gibt es echte Nullen) oder eine doppelte Hürde (Nullen können bei Auswahl und Verbrauch auftreten)? Gibt es mehr als "nur" die Quelle der Nullen?
Zusätzliche Information
Dieses Papier (das eine großartige Lektüre ist! Brad R. Humphreys, 2013 https://sites.ualberta.ca/~bhumphre/class/zeros_v1.pdf ) und insbesondere eine seiner Schlüsselgrafiken heben den Unterschied zwischen nicht beobachteten Nullen hervor (dh fehlende Daten, Unternehmen, die keine Finanzierung suchen) und beobachtete Nullen (dh Investoren, die Finanzmittel bereitstellen oder nicht) sehr gut. Es enthält auch Anleitungen zu den zu verwendenden Modellen, bietet jedoch leider keine Lösung für Daten, bei denen beide Arten von Nullen gleichzeitig vorhanden sind.
Mögliche Lösung
Nachdem ich tiefer gegraben hatte, fand ich zwei Artikel, die eine statistische Lösung für genau das bieten, wonach ich suche:
- Blundell, Richard und Meghir, Costas, (1987), Bivariate Alternativen zum Tobit-Modell, Journal of Econometrics, 34, Ausgabe 1-2, S. 179-200. ( http://sites.psu.edu/scottcolby/wp-content/uploads/sites/13885/2014/07/Blundell1987_Bivariate-alternatives-to-the-tobit-model.pdf ) beschreiben ein Modell mit doppelter Hürde, das Abhängigkeit voraussetzt. Für eine Anwendung siehe Blundell, Richard, Ham, John und Meghir, Costas, (1987), Arbeitslosigkeit und weibliches Arbeitskräfteangebot, Economic Journal, 97, Ausgabe 388a, p. 44-64.
- Eine andere Lösung bieten Moulton, Lawrence H. und Neal A. Halsey an. "Ein Mischungsmodell mit Nachweisgrenzen für Regressionsanalysen der Antikörperantwort auf Impfstoffe." Biometrics, vol. 51, nein. 4, 1995, S. 1570–1578. www.jstor.org/stable/2533289 , die ein Bernoulli / Lognormal-Mischungsmodell für zensierte Daten beschreiben, das auch beide Arten von Nullen berücksichtigt.
Leider konnte ich in Stata oder R keine vertrauenswürdige Implementierung finden (es gibt ein Paket namens mhurdle, aber es scheint nicht gut mit Gewichten zu funktionieren und zufällige Fehler zu werfen ...)
Irgendwelche Kommentare oder weitere Ideen?