Ich habe einen Datensatz mit 8000 Clustern und 4 Millionen Beobachtungen. Leider läuft meine Statistiksoftware Stata ziemlich langsam, wenn sie ihre Paneldatenfunktion für die logistische Regression verwendet: xtlogit
Selbst bei einer Teilstichprobe von 10%.
Bei Verwendung der Nonpanel- logit
Funktion erscheinen die Ergebnisse jedoch viel früher. Daher kann ich möglicherweise von der Verwendung logit
geänderter Daten profitieren , die feste Auswirkungen haben.
Ich glaube, dieses Verfahren ist das "Mundlak-Verfahren mit festen Effekten" (Mundlak, Y. 1978. Zusammenführung von Zeitreihen- und Querschnittsdaten. Econometrica, 46 (1), 69-85.)
Eine intuitive Erklärung dieses Verfahrens fand ich in einem Aufsatz von Antonakis, J., Bendahan, S., Jacquart, P. und Lalive, R. (2010). Zur Begründung von Ansprüchen: Eine Überprüfung und Empfehlungen. The Leadership Quarterly, 21 (6). 1086-1120. Ich zitiere:
Eine Möglichkeit, das Problem der ausgelassenen Fixeffekte zu umgehen und weiterhin Variablen der Ebene 2 einzubeziehen, besteht darin, die Cluster-Mittelwerte aller Kovariaten der Ebene 1 in das geschätzte Modell einzubeziehen (Mundlak, 1978). Die Cluster-Mittelwerte können als Regressoren enthalten sein oder von der Level 1-Kovariate subtrahiert werden (dh Cluster-Mittelwert-Zentrierung). Die Cluster-Mittelwerte sind innerhalb des Clusters invariant (und variieren zwischen den Clustern) und ermöglichen eine konsistente Schätzung von Level 1-Parametern, als wären Fixeffekte einbezogen worden (siehe Rabe-Hesketh & Skrondal, 2008).
Daher scheint die Cluster-Mean-Zentrierung ideal und praktisch für die Lösung meines Rechenproblems zu sein. Diese Arbeiten scheinen jedoch auf lineare Regression (OLS) ausgerichtet zu sein.
Ist diese Methode der Cluster-Mean-Zentrierung auch für die "Replikation" der binären logistischen Regression mit festen Effekten anwendbar?
Eine eher technische Frage, die zur gleichen Antwort führen sollte, wäre: xtlogit depvar indepvars, fe
Ist Datensatz A gleich logit depvar indepvars
Datensatz B, wenn Datensatz B die Cluster-Mean-Centered-Version von Datensatz A ist?
Eine zusätzliche Schwierigkeit, die ich in dieser Cluster-Mean-Zentrierung gefunden habe, ist der Umgang mit Dummies. Da Dummies entweder 0 oder 1 sind, sind sie in der Zufalls- und Fixeffekt-Regression identisch? Sollten sie nicht "zentriert" sein?