Wie würden Sie (vielleicht mit einfachen Beispielen) den Unterschied zwischen Modellen mit festem Effekt, Zufallseffekt und gemischtem Effekt in einfachen Worten erklären?
Wie würden Sie (vielleicht mit einfachen Beispielen) den Unterschied zwischen Modellen mit festem Effekt, Zufallseffekt und gemischtem Effekt in einfachen Worten erklären?
Antworten:
Der Statistiker Andrew Gelman sagt, dass die Begriffe "fester Effekt" und "zufälliger Effekt" unterschiedliche Bedeutungen haben, je nachdem, wer sie verwendet. Vielleicht können Sie herausfinden, welche der 5 Definitionen für Ihren Fall gilt. Im Allgemeinen ist es möglicherweise besser, nach Gleichungen zu suchen, die das Wahrscheinlichkeitsmodell beschreiben, das die Autoren verwenden (beim Lesen), oder das vollständige Wahrscheinlichkeitsmodell zu schreiben, das Sie verwenden möchten (beim Schreiben).
Hier skizzieren wir fünf Definitionen, die wir gesehen haben:
Fixe Effekte sind bei allen Individuen konstant, und zufällige Effekte variieren. Beispielsweise entspricht in einer Wachstumsstudie ein Modell mit zufälligen Abschnitten und fester Steigung parallelen Linien für verschiedene Individuen oder dem Modell . Kreft und De Leeuw (1998) unterscheiden daher zwischen festen und zufälligen Koeffizienten. b i y i t = a i + b t
Effekte werden behoben, wenn sie für sich selbst interessant sind, oder zufällig, wenn Interesse an der zugrunde liegenden Population besteht. Searle, Casella und McCulloch (1992, Abschnitt 1.4) untersuchen diese Unterscheidung eingehend.
„Wenn eine Stichprobe die Grundgesamtheit erschöpft, ist die entsprechende Variable festgelegt. Wenn die Stichprobe ein kleiner (dh vernachlässigbarer) Teil der Bevölkerung ist, ist die entsprechende Variable zufällig. “(Green und Tukey, 1960)
„Wenn angenommen wird, dass ein Effekt ein realisierter Wert einer Zufallsvariablen ist, spricht man von einem Zufallseffekt.“ (LaMotte, 1983)
Fixe Effekte werden unter Verwendung der kleinsten Quadrate (oder allgemeiner der maximalen Wahrscheinlichkeit) geschätzt, und zufällige Effekte werden mit Schrumpfung geschätzt ("lineare unverzerrte Vorhersage" in der Terminologie von Robinson, 1991). Diese Definition ist Standard in der Literatur zur Mehrebenenmodellierung (siehe z. B. Snijders und Bosker, 1999, Abschnitt 4.2) und in der Ökonometrie.
[ Gelman, 2004, Varianzanalyse - warum ist das wichtiger denn je? Die Annalen der Statistik. ]
(4) “If an effect is assumed to be a realized value of a random variable, it is called a random effect.” (LaMotte, 1983)
Dazu gibt es gute Bücher wie Gelman und Hill . Was folgt, ist im Wesentlichen eine Zusammenfassung ihrer Perspektive.
Zunächst sollten Sie sich nicht zu sehr in die Terminologie vertiefen. In der Statistik sollte Jargon niemals als Ersatz für ein mathematisches Verständnis der Modelle selbst verwendet werden. Dies gilt insbesondere für Modelle mit zufälligen und gemischten Effekten. "Gemischt" bedeutet nur, dass das Modell sowohl feste als auch zufällige Effekte hat. Konzentrieren wir uns also auf den Unterschied zwischen festen und zufälligen Effekten.
Angenommen, Sie haben ein Modell mit einem kategorialen Prädiktor, der Ihre Beobachtungen gemäß den Kategoriewerten in Gruppen unterteilt. * Die diesem Prädiktor zugeordneten Modellkoeffizienten oder "Effekte" können entweder fest oder zufällig sein. Der wichtigste praktische Unterschied zwischen den beiden ist:
Zufällige Effekte werden mit partiellem Pooling geschätzt, feste Effekte jedoch nicht.
Partielles Pooling bedeutet, dass bei wenigen Datenpunkten in einer Gruppe die Effektschätzung der Gruppe teilweise auf den häufigeren Daten aus anderen Gruppen basiert. Dies kann ein netter Kompromiss zwischen der Abschätzung eines Effekts durch vollständiges Zusammenfassen aller Gruppen sein, wodurch Variationen auf Gruppenebene maskiert werden, und der Abschätzung eines Effekts für alle Gruppen vollständig getrennt, was zu schlechten Schätzungen für Gruppen mit geringer Stichprobe führen kann.
Zufällige Effekte sind einfach die Erweiterung der Partial-Pooling-Technik als allgemeines statistisches Modell. Dies ermöglicht die prinzipielle Anwendung der Idee auf eine Vielzahl von Situationen, einschließlich mehrerer Prädiktoren, gemischter kontinuierlicher und kategorialer Variablen sowie komplexer Korrelationsstrukturen. (Mit großer Kraft geht jedoch auch große Verantwortung einher: Die Komplexität von Modellierung und Inferenz nimmt erheblich zu und kann subtile Verzerrungen hervorrufen, deren Vermeidung erhebliche Raffinesse erfordert.)
Um das Zufallseffektmodell zu motivieren, fragen Sie sich: Warum sollten Sie einen partiellen Pool erstellen? Wahrscheinlich, weil Sie denken, dass die kleinen Untergruppen Teil einer größeren Gruppe mit einem gemeinsamen Mittelwert sind. Die Mittelwerte der Untergruppen können ein wenig vom Mittelwert der großen Gruppe abweichen, jedoch nicht um einen willkürlichen Betrag. Um diese Idee zu formalisieren, nehmen wir an, dass die Abweichungen einer Verteilung folgen, die typisch für Gauß ist. Hier kommt der Zufallseffekt ins Spiel: Wir gehen davon aus, dass die Abweichungen der Untergruppen von einem Elternteil der Verteilung einer Zufallsvariablen folgen. Sobald Sie diese Idee im Hinterkopf haben, folgen die Modellgleichungen mit gemischten Effekten auf natürliche Weise.
Leider haben Benutzer von Mischeffektmodellen oft falsche Vorurteile darüber, was zufällige Effekte sind und wie sie sich von festen Effekten unterscheiden. Die Leute hören "zufällig" und denken, dass dies etwas ganz Besonderes an dem zu modellierenden System bedeutet, zum Beispiel, dass feste Effekte verwendet werden müssen, wenn etwas "fest" ist, während zufällige Effekte verwendet werden müssen, wenn etwas "zufällig abgetastet" wird. Die Annahme, dass die Modellkoeffizienten aus einer Verteilung stammen, ist jedoch nicht besonders zufällig. Es ist nur eine weiche Einschränkung, ähnlich der Strafe, die auf Modellkoeffizienten in der Ridge-Regression angewendet wird. Es gibt viele Situationen, in denen Sie zufällige Effekte verwenden möchten oder nicht, und diese haben nicht unbedingt viel mit der Unterscheidung zwischen "fest" und "zufällig" zu tun.
Leider hat die durch diese Begriffe verursachte Begriffsverwirrung zu einer Fülle widersprüchlicher Definitionen geführt . Von den fünf Definitionen unter diesem Link ist nur # 4 im allgemeinen Fall völlig korrekt, aber es ist auch völlig uninformativ. Um zu verstehen, was diese Definition in der praktischen Arbeit bedeutet, müssen Sie ganze Artikel und Bücher lesen (oder diesen Beitrag verfehlen).
Betrachten wir einen Fall, in dem die Modellierung von Zufallseffekten nützlich sein könnte. Angenommen, Sie möchten das durchschnittliche US-Haushaltseinkommen nach Postleitzahl schätzen. Sie verfügen über einen großen Datensatz mit Beobachtungen zum Haushaltseinkommen und zur Postleitzahl. Einige Postleitzahlen sind im Datensatz gut vertreten, andere weisen nur wenige Haushalte auf.
Für Ihr erstes Modell würden Sie höchstwahrscheinlich das Durchschnittseinkommen in jeder Postleitzahl verwenden. Dies funktioniert gut, wenn Sie viele Daten für eine ZIP-Datei haben, aber die Schätzungen für Ihre schlecht abgetasteten ZIP-Dateien weisen eine hohe Varianz auf. Sie können dies abmildern, indem Sie einen Schrumpfungsschätzer (auch als partielles Pooling bezeichnet) verwenden, der Extremwerte für alle Postleitzahlen in Richtung des Durchschnittseinkommens drückt.
Aber wie viel Schrumpfung / Pooling sollten Sie für eine bestimmte ZIP-Datei durchführen? Es sollte intuitiv von Folgendem abhängen:
Wenn Sie die Postleitzahl als zufälligen Effekt modellieren, wird die mittlere Einkommensschätzung in allen Postleitzahlen unter Berücksichtigung aller oben genannten Faktoren einem statistisch fundierten Rückgang unterworfen.
Das Beste daran ist, dass Modelle mit zufälligen und gemischten Effekten automatisch (4) die Variabilitätsschätzung für alle zufälligen Effekte im Modell verarbeiten. Dies ist schwieriger, als es auf den ersten Blick scheint: Sie könnten die Varianz des Stichprobenmittelwerts für jede ZIP-Datei ausprobieren, dies ist jedoch voreingenommen, da ein Teil der Varianz zwischen Schätzungen für verschiedene ZIP-Dateien nur die Stichprobenvarianz ist. In einem Zufallseffektmodell berücksichtigt der Inferenzprozess die Stichprobenvarianz und verkleinert die Varianzschätzung entsprechend.
Nach Berücksichtigung von (1) - (4) ist ein Zufalls- / Mischeffektmodell in der Lage, die geeignete Schrumpfung für Gruppen mit geringer Stichprobe zu bestimmen. Es kann auch mit viel komplizierteren Modellen mit vielen verschiedenen Prädiktoren umgehen.
Wenn dies für Sie nach hierarchischer Bayes'scher Modellierung klingt, haben Sie recht - es ist ein enger Verwandter, aber nicht identisch. Modelle mit gemischten Effekten sind hierarchisch, da sie Verteilungen für latente, nicht beobachtete Parameter festlegen. Sie sind jedoch in der Regel nicht vollständig bayesianisch, da den Hyperparametern der obersten Ebene keine geeigneten Prioritäten zugewiesen werden. Zum Beispiel würden wir im obigen Beispiel das Durchschnittseinkommen in einer bestimmten Postleitzahl höchstwahrscheinlich als Stichprobe aus einer Normalverteilung behandeln, wobei der unbekannte Mittelwert und das unbekannte Sigma nach dem Mischeffektanpassungsverfahren geschätzt werden. Ein (nicht-bayesianisches) Modell mit gemischten Effekten hat jedoch in der Regel keine Prioritäten für den unbekannten Mittelwert und das Sigma, sodass es nicht vollständig bayesianisch ist. Bei einem anständigen Datensatz führen das Standardmodell mit gemischten Effekten und die vollständig bayesianische Variante jedoch häufig zu sehr ähnlichen Ergebnissen.
* Während sich viele Behandlungen dieses Themas auf eine enge Definition von "Gruppe" konzentrieren, ist das Konzept in der Tat sehr flexibel: Es handelt sich nur um eine Reihe von Beobachtungen, die eine gemeinsame Eigenschaft haben. Eine Gruppe könnte sich aus mehreren Beobachtungen einer einzelnen Person oder mehrerer Personen in einer Schule oder mehrerer Schulen in einem Bezirk oder mehreren Sorten einer einzelnen Obstsorte oder mehrerer Gemüsesorten aus derselben Ernte oder mehreren Ernten zusammensetzen Jede kategoriale Variable kann als Gruppierungsvariable verwendet werden.
Ich habe darüber in einem Buchkapitel über gemischte Modelle geschrieben (Kapitel 13 in Fox, Negrete-Yankelevich und Sosa 2014 ); Die entsprechenden Seiten (S. 311-315) sind in Google Books verfügbar . Ich denke, die Frage reduziert sich auf "Was sind die Definitionen von festen und zufälligen Effekten?" (Ein "gemischtes Modell" ist nur ein Modell, das beides enthält). In meiner Diskussion geht es ein wenig weniger um ihre formale Definition (für die ich mich auf das Gelman-Papier beziehen würde, das durch die Antwort von @ JohnSalvatier oben verlinkt wurde) als vielmehr um ihre praktischen Eigenschaften und Nützlichkeit. Hier einige Auszüge:
Die traditionelle Sichtweise von Zufallseffekten ist eine Möglichkeit, statistische Tests korrekt durchzuführen, wenn einige Beobachtungen korrelieren.
Wir können uns Zufallseffekte auch als eine Möglichkeit vorstellen, Informationen aus verschiedenen Ebenen innerhalb einer Gruppierungsvariablen zu kombinieren.
Zufällige Effekte sind besonders nützlich, wenn wir (1) viele Ebenen (z. B. viele Arten oder Blöcke), (2) relativ wenig Daten auf jeder Ebene haben (obwohl wir mehrere Stichproben von den meisten Ebenen benötigen) und (3) ungleichmäßig sind Probenahme über Ebenen (Feld 13.1).
Frequentisten und Bayesianer definieren zufällige Effekte etwas anders, was sich auf die Art und Weise auswirkt, wie sie sie verwenden. Frequentisten definieren Zufallseffekte als kategoriale Variablen, deren Pegel zufällig aus einer größeren Population ausgewählt werdenB. zufällig ausgewählte Arten aus einer Liste endemischer Arten. Bayes'sche definieren Zufallseffekte als Mengen von Variablen, deren Parameter [alle] aus [derselben] Verteilung stammen. Die Definition der Frequentisten ist philosophisch kohärent, und Sie werden auf Forscher (einschließlich Gutachter und Betreuer) stoßen, die darauf bestehen, aber es kann praktisch problematisch sein. Dies bedeutet beispielsweise, dass Sie keine Arten als Zufallseffekt verwenden können, wenn Sie alle Arten an Ihrem Feldstandort beobachtet haben, da die Liste der Arten keine Stichprobe aus einer größeren Population ist. Sie können auch das Jahr als Zufallseffekt verwenden. Da Forscher in zufällig ausgewählten Jahren selten ein Experiment durchführen, verwenden sie normalerweise entweder eine Reihe von aufeinanderfolgenden Jahren oder die zufällige Menge von Jahren, in denen sie auf das Feld gelangen könnten.
Zufällige Effekte können auch als Prädiktorvariablen beschrieben werden, bei denen Sie Rückschlüsse auf die Werteverteilung (dh die Varianz zwischen den Werten der Reaktion auf verschiedenen Ebenen) ziehen möchten, anstatt die Unterschiede der Werte zwischen bestimmten Ebenen zu testen.
Manchmal wird gesagt, dass zufällige Effekte „Faktoren sind, an denen Sie nicht interessiert sind“. Dies ist nicht immer der Fall. Während dies bei ökologischen Experimenten häufig der Fall ist (wo die Variation zwischen Standorten normalerweise nur ein Ärgernis darstellt), ist dies manchmal von großem Interesse, beispielsweise bei Evolutionsstudien, bei denen die Variation zwischen Genotypen der Rohstoff für die natürliche Selektion ist, oder bei demografischen Studien Wenn die Variation zwischen den Jahren die langfristigen Wachstumsraten senkt. In einigen Fällen werden feste Effekte auch verwendet, um uninteressante Variationen zu kontrollieren, z. B. indem Masse als Kovariate zur Kontrolle von Effekten der Körpergröße verwendet wird.
Sie werden auch hören, dass Sie "nichts über den (vorhergesagten) Wert eines bedingten Modus sagen können". Dies ist auch nicht der Fall - Sie können eine Nullhypothese, dass der Wert gleich Null ist, oder die formale Nullhypothese nicht testen Werte von zwei verschiedenen Ebenen sind gleich, es ist jedoch durchaus sinnvoll, den vorhergesagten Wert zu betrachten und sogar einen Standardfehler des vorhergesagten Werts zu berechnen (siehe z. B. die Fehlerbalken um die bedingten Modi in Abbildung 13.1).
Das Bayes'sche Gerüst hat eine einfachere Definition von Zufallseffekten. Unter einem Bayes'schen Ansatz ist ein fester Effekt einer, bei dem jeder Parameter (z. B. der Mittelwert für jede Art innerhalb einer Gattung) unabhängig (mit unabhängig festgelegten Prioritäten) geschätzt wird, während für einen zufälligen Effekt die Parameter für jede Ebene als gezeichnet modelliert werden aus einer Distribution (normalerweise Normal); in statistischer Standardnotation .
Ich sagte oben, dass zufällige Effekte am nützlichsten sind, wenn die Gruppierungsvariable viele gemessene Ebenen hat. Umgekehrt sind zufällige Effekte in der Regel unwirksam, wenn die Gruppierungsvariable zu wenig Ebenen aufweist. Normalerweise können Sie keine zufälligen Effekte verwenden, wenn die Gruppierungsvariable weniger als fünf Stufen hat, und die Varianzschätzungen für zufällige Effekte sind mit weniger als acht Stufen instabil, da Sie versuchen, eine Varianz aus einer sehr kleinen Stichprobe zu schätzen.
Behobener Effekt: Etwas, das der Experimentator direkt manipuliert und oft wiederholbar ist, z. B. Arzneimittelverabreichung - eine Gruppe erhält Arzneimittel, eine Gruppe Placebo.
Zufälliger Effekt: Quelle für zufällige Variationen / experimentelle Einheiten, z. B. Personen, die (zufällig) aus einer Population für eine klinische Studie gezogen wurden. Zufällige Effekte schätzen die Variabilität
Gemischter Effekt: Beinhaltet beide, der fixe Effekt schätzt in diesen Fällen die Populationskoeffizienten, während die zufälligen Effekte individuelle Unterschiede in Reaktion auf einen Effekt erklären können, dh jede Person erhält sowohl das Medikament als auch das Placebo zu unterschiedlichen Gelegenheiten, den fixen Effekt schätzt die Wirkung des Medikaments, die zufälligen Effekte Bedingungen würden es jeder Person ermöglichen, auf das Medikament unterschiedlich zu reagieren.
Allgemeine Kategorien von gemischten Effekten - wiederholte Messungen, longitudinale, hierarchische, geteilte Darstellung.
Ich bin von hier auf diese Frage gekommen , ein mögliches Duplikat.
Es gibt bereits mehrere ausgezeichnete Antworten, aber wie in der akzeptierten Antwort angegeben, gibt es viele verschiedene (aber verwandte) Verwendungen des Begriffs, so dass es nützlich sein könnte, die in der Ökonometrie verwendete Perspektive anzugeben, die hier noch nicht vollständig angesprochen zu sein scheint .
m
Hier ist der Code, der die Daten generiert und eine positive RE-Schätzung und eine "korrekte" negative FE-Schätzung erzeugt. (Die RE-Schätzungen sind jedoch häufig auch für andere Samen negativ, siehe oben.)
library(Jmisc)
library(plm)
library(RColorBrewer)
# FE illustration
set.seed(324)
m = 8
n = 12
step = 5
alpha = runif(n,seq(0,step*n,by=step),seq(step,step*n+step,by=step))
beta = -1
y = X = matrix(NA,nrow=m,ncol=n)
for (i in 1:n) {
X[,i] = runif(m,i,i+1)
X[,i] = rnorm(m,i)
y[,i] = alpha[i] + X[,i]*beta + rnorm(m,sd=.75)
}
stackX = as.vector(X)
stackY = as.vector(y)
darkcols <- brewer.pal(12, "Paired")
plot(stackX,stackY,col=rep(darkcols,each=m),pch=19)
unit = rep(1:n,each=m)
# first two columns are for plm to understand the panel structure
paneldata = data.frame(unit,rep(1:m,n),stackY,stackX)
fe <- plm(stackY~stackX, data = paneldata, model = "within")
re <- plm(stackY~stackX, data = paneldata, model = "random")
Die Ausgabe:
> fe
Model Formula: stackY ~ stackX
Coefficients:
stackX
-1.0451
> re
Model Formula: stackY ~ stackX
Coefficients:
(Intercept) stackX
18.34586 0.77031
Die Unterscheidung ist nur im Zusammenhang mit nicht-bayesianischen Statistiken sinnvoll. In der Bayes'schen Statistik sind alle Modellparameter "zufällig".
In der Ökonometrie werden die Begriffe typischerweise in verallgemeinerten linearen Modellen angewendet, wobei das Modell von der Form ist
In linearen Modellen führt das Vorhandensein eines Zufallseffekts nicht zu einer Inkonsistenz des OLS-Schätzers. Die Verwendung eines Zufallseffektschätzers (wie durchführbare verallgemeinerte kleinste Quadrate) führt jedoch zu einem effizienteren Schätzer.
In nichtlinearen Modellen wie Probit, Tobit, ... führt das Vorhandensein eines zufälligen Effekts im Allgemeinen zu einem inkonsistenten Schätzer. Die Verwendung eines Schätzers für zufällige Effekte stellt dann die Konsistenz wieder her.
Sowohl für lineare als auch für nichtlineare Modelle führen feste Effekte zu einer Verzerrung. In linearen Modellen können jedoch Transformationen verwendet werden (z. B. erste Unterschiede oder Erniedrigung), bei denen OLS für die transformierten Daten zu konsistenten Schätzungen führt. Bei nichtlinearen Modellen gibt es einige Ausnahmen, bei denen Transformationen existieren. Ein Beispiel hierfür ist das Protokoll für feste Effekte .
Beispiel: Zufällige Effekte probit. Annehmen
und das beobachtete Ergebnis ist
Der Pooled Maximum Likelihood Estimator minimiert den Stichprobenmittelwert von
Natürlich vereinfachen sich hier das Protokoll und das Produkt, aber aus pädagogischen Gründen ist die Gleichung damit besser mit dem Zufallseffektschätzer vergleichbar, der die Form hat
Wir können zum Beispiel das Integral durch Randomisierung approximieren, indem wir Zeichnungen von Zufallsnormalen nehmen und die Wahrscheinlichkeit für jede bewerten.
Die Intuition ist die folgende: Wir wissen nicht, welcher Typ, , jede Beobachtung ist. Stattdessen bewerten wir das Produkt der Wahrscheinlichkeit über die Zeit für eine Folge von Ziehungen. Der wahrscheinlichste Beobachtungstyp hat die höchste Wahrscheinlichkeit in allen Perioden und dominiert daher den Wahrscheinlichkeitsbeitrag für diese Folge von Beobachtungen. i T
Nicht wirklich eine formale Definition, aber ich mag die folgenden Folien: Gemischte Modelle und warum Soziolinguisten sie verwenden sollten ( Spiegel ), von Daniel Ezra Johnson. Ein kurzer Rückblick ist auf Folie 4 zu finden. Obwohl er sich hauptsächlich auf psycholinguistische Studien konzentrierte, ist er als erster Schritt sehr nützlich.
Eine weitere sehr praktische Perspektive für Modelle mit zufälligen und festen Effekten ergibt sich aus der Ökonometrie, wenn lineare Regressionen für Paneldaten durchgeführt werden . Wenn Sie die Assoziation zwischen einer erklärenden Variablen und einer Ergebnisvariablen in einem Datensatz mit mehreren Stichproben pro Person / Gruppe schätzen, ist dies das Framework, das Sie verwenden möchten.
Ein gutes Beispiel für Paneldaten sind jährliche Messungen einer Reihe von Personen mit:
Wenn wir versuchen, die Beziehung zwischen Training und Gewichtsänderung zu verstehen, richten wir die folgende Regression ein:
e x e r c i s e i t + β 1 g e n d e r i + α i + ε i t
Bei einem solchen Aufbau besteht die Gefahr der Endogenität. Dies kann vorkommen, wenn nicht gemessene Variablen (z. B. der Familienstand) mit körperlicher Betätigung und Gewichtsveränderung verbunden sind. Wie auf S.16 in dieser Vorlesung in Princeton erläutert , ist ein Zufallseffektmodell (AKA Mixed Effects) effizienter als ein Modell mit festen Effekten. Es wird jedoch fälschlicherweise einen Teil der Auswirkung der nicht gemessenen Variablen auf die Gewichtsänderung auf das Training , was zu einem falschen und möglicherweise zu einer höheren statistischen Signifikanz als gültig führt. In diesem Fall ist das Zufallseffektmodell kein konsistenter Schätzer für .β 0
Ein Modell mit festen Effekten (in seiner grundlegendsten Form) steuert alle nicht gemessenen Variablen, die über die Zeit konstant sind, sich jedoch zwischen Individuen unterscheiden, indem explizit ein separater Intercept-Term für jedes Individuum ( ) in die Regressionsgleichung aufgenommen wird. In unserem Beispiel wird automatisch geprüft, ob die Auswirkungen des Geschlechts und nicht gemessene Störfaktoren (Familienstand, sozioökonomischer Status, Bildungsstand usw.) störend sind. Tatsächlich kann das Geschlecht nicht in die Regression einbezogen werden und kann nicht durch ein Modell mit festen Effekten geschätzt werden, da mit den kollinear ist .β 1 g e n d e r i α i
Die Schlüsselfrage ist also, welches Modell angemessen ist. Die Antwort ist der Hausman-Test . Um es zu verwenden, führen wir sowohl die feste als auch die zufällige Effektregression durch und wenden dann den Hausman-Test an, um festzustellen, ob ihre Koeffizientenschätzungen signifikant voneinander abweichen. Wenn sie voneinander abweichen, spielt die Endogenität eine Rolle, und ein Modell mit festen Effekten ist die beste Wahl. Ansonsten werden wir mit zufälligen Effekten arbeiten.