Ist das Mundlak-Verfahren für feste Effekte für die logistische Regression mit Dummies anwendbar?


12

Ich habe einen Datensatz mit 8000 Clustern und 4 Millionen Beobachtungen. Leider läuft meine Statistiksoftware Stata ziemlich langsam, wenn sie ihre Paneldatenfunktion für die logistische Regression verwendet: xtlogitSelbst bei einer Teilstichprobe von 10%.

Bei Verwendung der Nonpanel- logitFunktion erscheinen die Ergebnisse jedoch viel früher. Daher kann ich möglicherweise von der Verwendung logitgeänderter Daten profitieren , die feste Auswirkungen haben.

Ich glaube, dieses Verfahren ist das "Mundlak-Verfahren mit festen Effekten" (Mundlak, Y. 1978. Zusammenführung von Zeitreihen- und Querschnittsdaten. Econometrica, 46 (1), 69-85.)

Eine intuitive Erklärung dieses Verfahrens fand ich in einem Aufsatz von Antonakis, J., Bendahan, S., Jacquart, P. und Lalive, R. (2010). Zur Begründung von Ansprüchen: Eine Überprüfung und Empfehlungen. The Leadership Quarterly, 21 (6). 1086-1120. Ich zitiere:

Eine Möglichkeit, das Problem der ausgelassenen Fixeffekte zu umgehen und weiterhin Variablen der Ebene 2 einzubeziehen, besteht darin, die Cluster-Mittelwerte aller Kovariaten der Ebene 1 in das geschätzte Modell einzubeziehen (Mundlak, 1978). Die Cluster-Mittelwerte können als Regressoren enthalten sein oder von der Level 1-Kovariate subtrahiert werden (dh Cluster-Mittelwert-Zentrierung). Die Cluster-Mittelwerte sind innerhalb des Clusters invariant (und variieren zwischen den Clustern) und ermöglichen eine konsistente Schätzung von Level 1-Parametern, als wären Fixeffekte einbezogen worden (siehe Rabe-Hesketh & Skrondal, 2008).

Daher scheint die Cluster-Mean-Zentrierung ideal und praktisch für die Lösung meines Rechenproblems zu sein. Diese Arbeiten scheinen jedoch auf lineare Regression (OLS) ausgerichtet zu sein.

Ist diese Methode der Cluster-Mean-Zentrierung auch für die "Replikation" der binären logistischen Regression mit festen Effekten anwendbar?

Eine eher technische Frage, die zur gleichen Antwort führen sollte, wäre: xtlogit depvar indepvars, feIst Datensatz A gleich logit depvar indepvarsDatensatz B, wenn Datensatz B die Cluster-Mean-Centered-Version von Datensatz A ist?

Eine zusätzliche Schwierigkeit, die ich in dieser Cluster-Mean-Zentrierung gefunden habe, ist der Umgang mit Dummies. Da Dummies entweder 0 oder 1 sind, sind sie in der Zufalls- und Fixeffekt-Regression identisch? Sollten sie nicht "zentriert" sein?

Antworten:


9

Erste Differenzierungen oder Transformationen wie Erniedrigung sind in Modellen wie logit nicht verfügbar, da bei nichtlinearen Modellen solche Tricks die nicht beobachteten festen Effekte nicht beseitigen. Selbst wenn Sie einen kleineren Datensatz hätten, in dem es möglich wäre, N-1 einzelne Dummies einzubeziehen, um die festen Effekte direkt abzuschätzen, würde dies zu verzerrten Schätzungen führen, es sei denn, die Zeitdimension Ihrer Daten ist groß. Das Eliminieren der Fixeffekte im Panel Logit erfolgt daher weder differenzierend noch erniedrigend und ist nur aufgrund der Logit-Funktionsform möglich. Wenn Sie an den Details interessiert sind, können Sie sich diese Notizen von Söderbom im PDF-Format auf Seite 30 (Erklärung, warum Erniedrigung / erste Unterscheidung in logit / probit nicht hilft) und Seite 42 (Einführung des Panel Logit Estimator) ansehen.

Ein weiteres Problem besteht darin, dass xtlogitPanel-Logit-Modelle im Allgemeinen die festen Effekte nicht direkt schätzen, die zur Berechnung der Randeffekte erforderlich sind. Ohne diese ist es sehr umständlich, die Koeffizienten zu interpretieren, die nach stundenlangem Ausführen des Modells möglicherweise enttäuschend sind.

Mit einem so großen Datensatz und den zuvor erwähnten konzeptionellen Schwierigkeiten des FE-Panel-Logits würde ich beim linearen Wahrscheinlichkeitsmodell bleiben. Ich hoffe, diese Antwort enttäuscht Sie nicht, aber es gibt viele gute Gründe, einen solchen Ratschlag zu geben: Das LPM ist viel schneller, die Koeffizienten können sofort interpretiert werden (dies gilt insbesondere, wenn Sie aufgrund der Interpretation in Ihrem Modell Interaktionseffekte haben) Koeffizienten in nichtlinearen Modellen ändern sich!), die festen Effekte lassen sich leicht steuern und Sie können die Standardfehler für Autokorrelation und Cluster anpassen, ohne dass die Schätzzeiten über die Vernunft hinaus ansteigen. Ich hoffe das hilft.


1
Es ist keine Lösung, aber es ist eine Antwort. Vielen Dank :)
Tom

1
Kleiner Punkt: p20 dieser Folien macht Ihren Fall, aber eine Mundlak-Korrektur, auch bekannt als "Correlated Random Effects" -Modell, ist auf Seite 47 beschrieben und scheint keine derartigen Einschränkungen zu enthalten.
Conjugateprior

1

Ich glaube, dass es sich bei der bedingten Protokollierung ("Clogit" bei Stata) um eine alternative Schätzung der Protokollierung mit festem Effekt handelt.

http://www3.nd.edu/~rwilliam/stats3/Panel03-FixedEffects.pdf


5
Willkommen auf der Seite! Ich halte dies für keine akzeptable Antwort, da es sich tatsächlich um die Frage handelt, wie eine bedingte logistische Regression (mit festen Effekten) durch eine modifizierte logistische Querschnittsregression vermieden werden kann, um die Schätzung zu beschleunigen. Wie Ihre Referenz (oben auf Seite 3) angibt, "können wir entweder Stataden clogitBefehl oder den xtlogit, feBefehl verwenden, um eine Logit-Analyse mit festen Effekten durchzuführen. Beide führen zu denselben Ergebnissen. (Ich glaube xtlogit, fesogar , dass tatsächlich Anrufe getätigt werden clogit.)" OP wusste schon xtlogit, feanhand des vorletzten Absatzes Bescheid .
Randel

0

Allison hat dieses Problem in Allison, (2009), "Fixed effects regression models", S.32f diskutiert.

Allison argumentiert, dass es nicht möglich ist, ein bedingungsloses Modell mit maximaler Wahrscheinlichkeit zu schätzen. Dies liegt daran, dass die Modelle aufgrund des Problems der zufälligen Parameter voreingenommen sind. Stattdessen empfiehlt er die Verwendung eines bedingten Logit-Modells (Chamberlain, 1980). Dies wird erreicht, indem die Wahrscheinlichkeitsfunktion von der Anzahl der für jedes Individuum beobachteten Ereignisse abhängig gemacht wird.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.