Genauer Unterschied zwischen zweiteiligen Modellen (z. B. Cragg) und Tobit Typ 2-Modellen (z. B. Heckman)


8

Ich möchte eine Regression durchführen, bei der der DV die Höhe der von Startups erhaltenen Mittel (in USD) ist. Natürlich enthält der DV viele Nullen (~ 55%) und hat eine kontinuierliche Verteilung für y> 0.

Im Allgemeinen verstehe ich, dass das Tobit-Modell (oder eine Variation davon) für die Modellierung dieses DV geeignet ist.

Obwohl ich jetzt seit Monaten lese und diskutiere, habe ich immer noch Schwierigkeiten, den genauen Unterschied zwischen dem Standardmodell von Tobit (1958), den von Cragg (1971) vorgeschlagenen zweiteiligen Erweiterungen und dem von Heckmann vertretenen Modell Tobit Typ 2, z (1974, 1976, 1979). Mein derzeitiges Verständnis ist, dass alle Modelle theoretisch mit unterschiedlichen Vor- und Nachteilen und möglichen Gründen anwendbar sein könnten, warum sie überhaupt nicht verwendet werden sollten (abhängig von den genauen Eigenschaften des Datensatzes).

Warum ich das Standard-Tobit-Modell ausgeschlossen habe

Für meine Anwendung habe ich das Standard-Tobit-Modell ausgeschlossen, da nur beide Prozesse von denselben Variablen gesteuert werden können, für die auch nur ein Koeffizient angegeben wird. Daher kann die Wirkung einer bestimmten Variablen in der Auswahl- und Ergebnisgleichung kein anderes Vorzeichen haben (was jedoch manchmal der Fall ist).

Tobit Typ 2 (oder Heckmann-Auswahlmodell) vs. zweiteiliges Modell (Cragg)

Mein bisheriges Verständnis ist, dass der Hauptunterschied zwischen den beiden Modellen darin besteht, dass zweiteilige Modelle nur echte Nullen annehmen, während Tobit Typ 2 auch (oder nur?) Unbeobachtete Nullen berücksichtigt (z. B. Personen, die im Allgemeinen nicht rauchen) eine 0 und Personen, die im Allgemeinen rauchen, sich aber zu einem bestimmten Zeitpunkt das Rauchen nicht leisten können, sind ebenfalls eine 0)

Dies trifft jedoch nicht ganz zu, da Cragg (1971) ursprünglich auch ein Doppelhürdenmodell vorgeschlagen hat, bei dem zwei Hürden überwunden werden müssen, bevor positive Werte von y beobachtet werden: "Zunächst muss eine positive Menge gewünscht werden [(dh ich bin Raucher oder nicht)]. Zweitens müssen günstige Umstände eintreten, damit der positive Wunsch erfüllt werden kann [(dh ich bin Raucher und ich habe genügend Geld, um mir das Rauchen leisten zu können)] ".

Ich denke, dies bedeutet, dass der Tobit-Typ II in der ersten Auswahlgleichung beide Arten von Nullen berücksichtigt (oder nur nicht beobachtet?) Und die Ergebnisgleichung bei y> 0 abgeschnitten wird. Das Cragg-Modell mit einer einzigen Hürde berücksichtigt nur echte Nullen in der Auswahl Gleichung und das Doppelhürden-Cragg-Modell berücksichtigen "unbeobachtete" Nullen während der Auswahl und "wahre" Nullen während der Ergebnisgleichung.

Fragen

  • Ist meine Aussage zu den drei Modellen richtig? Und was bedeutet das genau? Sind die Quellen von Nullen die einzigen / Hauptentscheidungskriterien? Wenn ja, würde dies für mich in Bezug auf meine Daten bedeuten: Startups entscheiden, ob sie eine Finanzierung beantragen oder nicht (erste Quelle von Nullen -> unbeobachtet), anschließend entscheidet der Markt, ob sie eine Finanzierung bereitstellen oder nicht (zweite Quelle von Nullen -> beobachtet). und im positiven Fall, wie viel (y> 0) -> Craggs Doppelhürdenmodell (das echte Doppelhürdenmodell, das oft fälschlicherweise mit dem Einzelhürdenmodell verwechselt wird)

  • Unabhängig von meiner (möglicherweise falschen) Schlussfolgerung: Was sind die wichtigsten Entscheidungskriterien, die ich berücksichtigen / diskutieren sollte, wenn ich mich für einen Modelltyp (Tobit Typ 2 (Heckmann)) oder ein zweiteiliges Modell (entweder eine einzelne Hürde (alle Nullen) entscheide? Gibt es echte Nullen) oder eine doppelte Hürde (Nullen können bei Auswahl und Verbrauch auftreten)? Gibt es mehr als "nur" die Quelle der Nullen?

Zusätzliche Information

Dieses Papier (das eine großartige Lektüre ist! Brad R. Humphreys, 2013 https://sites.ualberta.ca/~bhumphre/class/zeros_v1.pdf ) und insbesondere eine seiner Schlüsselgrafiken Geben Sie hier die Bildbeschreibung einheben den Unterschied zwischen nicht beobachteten Nullen hervor (dh fehlende Daten, Unternehmen, die keine Finanzierung suchen) und beobachtete Nullen (dh Investoren, die Finanzmittel bereitstellen oder nicht) sehr gut. Es enthält auch Anleitungen zu den zu verwendenden Modellen, bietet jedoch leider keine Lösung für Daten, bei denen beide Arten von Nullen gleichzeitig vorhanden sind.

Mögliche Lösung

Nachdem ich tiefer gegraben hatte, fand ich zwei Artikel, die eine statistische Lösung für genau das bieten, wonach ich suche:

  • Blundell, Richard und Meghir, Costas, (1987), Bivariate Alternativen zum Tobit-Modell, Journal of Econometrics, 34, Ausgabe 1-2, S. 179-200. ( http://sites.psu.edu/scottcolby/wp-content/uploads/sites/13885/2014/07/Blundell1987_Bivariate-alternatives-to-the-tobit-model.pdf ) beschreiben ein Modell mit doppelter Hürde, das Abhängigkeit voraussetzt. Für eine Anwendung siehe Blundell, Richard, Ham, John und Meghir, Costas, (1987), Arbeitslosigkeit und weibliches Arbeitskräfteangebot, Economic Journal, 97, Ausgabe 388a, p. 44-64.
  • Eine andere Lösung bieten Moulton, Lawrence H. und Neal A. Halsey an. "Ein Mischungsmodell mit Nachweisgrenzen für Regressionsanalysen der Antikörperantwort auf Impfstoffe." Biometrics, vol. 51, nein. 4, 1995, S. 1570–1578. www.jstor.org/stable/2533289 , die ein Bernoulli / Lognormal-Mischungsmodell für zensierte Daten beschreiben, das auch beide Arten von Nullen berücksichtigt.

Leider konnte ich in Stata oder R keine vertrauenswürdige Implementierung finden (es gibt ein Paket namens mhurdle, aber es scheint nicht gut mit Gewichten zu funktionieren und zufällige Fehler zu werfen ...)

Irgendwelche Kommentare oder weitere Ideen?


Haben Sie selbst eine Antwort gefunden? Wenn ja, antworten Sie bitte unten - ich bin an den Antworten auf die von Ihnen gestellten Fragen interessiert.
Mark White

Antworten:


1

Danke, dass du gefragt hast, Mark. Im Zusammenhang mit meinen Daten verwendete ich schließlich das von Blundell vorgeschlagene Modell der doppelten Hürde (die erste Kugel meiner vorgeschlagenen Lösungen). Aufgrund der Rückmeldungen, die ich auf akademischen Konferenzen erhalten habe, scheint dies ein praktikabler Ansatz zu sein. Am Ende habe ich auch das R-Paket mhurdle verwendet. Gewichte funktionieren einfach nicht - der Rest des Codes scheint sehr solide zu sein.

In Bezug auf meine spezifischen Fragen; Ich habe nicht auf alle eine endliche Antwort, aber lassen Sie mich zusammenfassen, was ich gelernt habe:

Ist meine Aussage zu den drei Modellen richtig? Es scheint so - ja

Sind die Quellen von Nullen die einzigen / Hauptentscheidungskriterien? Sie sind sicherlich nicht die einzigen Entscheidungskriterien, aber im Zusammenhang mit Daten mit einem Massenpunkt bei Null ist es enorm wichtig, viel Zeit für das Verständnis der Erzeugung der Nullen aufzuwenden.

Was sind die wichtigsten Entscheidungskriterien, die ich berücksichtigen / diskutieren sollte, wenn ich mich für einen Modelltyp entscheide? Neben den offensichtlichen Fragen zum Typ der abhängigen Variablen und ihrer Verteilung lauten die beiden Hauptfragen zu Daten mit einem Massenpunkt bei Null: Möchten Sie Ihre Ergebnisse nach zwei verschiedenen Stufen unterscheiden, oder reicht es aus, einen Satz von Koeffizienten anzugeben? In diesem Fall können Sie ein Tobit-Modell verwenden. Andernfalls benötigen Sie ein zweiteiliges Modell, bei dem die Diskussion über die verschiedenen Nullquellen ins Spiel kommt.

Gibt es mehr als "nur" die Quelle der Nullen? Ja - das gibt es. Mindestens zwei: beobachtete / wahre Nullen und nicht beobachtete / falsche Nullen (letztere sind tatsächlich entweder NAs oder so kleine Werte, die als 0 umkodiert werden)

Hoffe das hilft dir ein bisschen! Jan.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.