Die lineare Regression ist nicht die richtige Wahl für Ihr Ergebnis, vorausgesetzt:
- Die Ergebnisvariable ist nicht normal verteilt
- Die Ergebnisvariable ist in den Werten begrenzt, die sie annehmen kann (Zähldaten bedeuten, dass die vorhergesagten Werte nicht negativ sein können).
- Was scheint eine hohe Häufigkeit von Fällen mit 0 Besuchen zu sein
Begrenzte abhängige Variablenmodelle für Zähldaten
Die Schätzstrategie, aus der Sie auswählen können, wird durch die "Struktur" Ihrer Ergebnisvariablen bestimmt. Das heißt, wenn Ihre Ergebnisvariable in den Werten begrenzt ist, die sie annehmen kann (dh wenn es sich um eine begrenzte abhängige Variable handelt ), müssen Sie ein Modell auswählen, bei dem die vorhergesagten Werte in den möglichen Bereich für Ihr Ergebnis fallen. Während manchmal lineare Regression eine gute Annäherung für begrenzte abhängige Variablen ist (zum Beispiel im Fall von binärem Logit / Probit), ist dies häufig nicht der Fall. Geben Sie verallgemeinerte lineare Modelle ein . In Ihrem Fall haben Sie mehrere Möglichkeiten, da die Ergebnisvariable Zähldaten sind:
- Poisson-Modell
- Negatives Binomialmodell
- Zero Inflated Poisson (ZIP) Modell
- ZINB-Modell (Zero Inflated Negative Binomial)
Die Wahl wird normalerweise empirisch bestimmt. Ich werde im Folgenden kurz auf die Auswahl zwischen diesen Optionen eingehen.
Poisson vs. negatives Binomial
θH0:θ=0H1:θ≠0θ
ZIP vs. ZINB
Eine mögliche Komplikation ist die Nullinflation, die hier ein Problem sein könnte. Hier kommen die Modelle ZIP und ZINB mit Null-Inflation ins Spiel. Bei diesen Modellen wird davon ausgegangen, dass der Prozess zum Generieren der Nullwerte von dem Prozess zum Generieren der anderen Nicht-Null-Werte getrennt ist. Wie zuvor ist ZINB geeignet, wenn das Ergebnis übermäßige Nullen aufweist und überdispers ist, während ZIP geeignet ist, wenn das Ergebnis übermäßige Nullen aufweist, aber bedingter Mittelwert = bedingte Varianz. Bei den Modellen mit Null-Inflation müssen Sie zusätzlich zu den oben aufgeführten Modellkovariaten an Variablen denken, die möglicherweise die überschüssigen Nullen erzeugt haben, die Sie im Ergebnis gesehen haben. Auch hier gibt es statistische Tests, die mit der Ausgabe dieser Modelle geliefert werden (manchmal müssen Sie sie möglicherweise angeben, wenn Sie einen Befehl ausführen), mit denen Sie dies tun könnenθ
θH0:θ=0H1:θ≠0H0:Excess zeroes is not a result of a separate processH1:Excess zeroes is a result of a separate process
θθ
Schließlich verwende ich kein R, aber die Seite mit den IDRE-Datenanalysebeispielen von UCLA kann Sie bei der Anpassung dieser Modelle unterstützen.
[Von einem anderen Benutzer ohne ausreichenden Ruf bearbeiten, um einen Kommentar abzugeben: In diesem Dokument wird erläutert, warum Sie den Vuong-Test nicht zum Vergleichen eines Null-Inflations-Modells verwenden sollten, und es werden Alternativen bereitgestellt.
P. Wilson, "Der Missbrauch des Vuong-Tests für nicht verschachtelte Modelle zum Testen auf Null-Inflation." Economics Letters, 2015, vol. 127, Ausgabe C, 51-53 ]