Ich arbeite mit einem großen Datensatz (vertraulich, daher kann ich nicht zu viel teilen).
Es ist möglicherweise möglich, einen kleinen Datensatz zu erstellen, der einige der allgemeinen Merkmale der realen Daten ohne die Variablennamen oder einen der tatsächlichen Werte aufweist.
und kam zu dem Schluss, dass eine negative binomische Regression notwendig wäre. Ich habe noch nie zuvor eine glm-Regression durchgeführt, und ich kann keine klaren Informationen über die Annahmen finden. Sind sie für MLR gleich?
Ganz sicher nicht! Sie wissen bereits, dass Sie davon ausgehen, dass die Antwort bedingt negativ und nicht bedingt normal ist. ( Einige Annahmen werden geteilt. Unabhängigkeit zum Beispiel.)
Lassen Sie mich zunächst allgemeiner über GLMs sprechen.
GLMs beinhalten multiple Regressionen, können jedoch auf verschiedene Arten verallgemeinert werden:
1) Die bedingte Verteilung der Antwort (abhängige Variable) stammt aus der Exponentialfamilie , zu der Poisson-, Binomial-, Gamma-, Normal- und zahlreiche andere Verteilungen gehören.
2) Die mittlere Antwort bezieht sich über eine Verbindungsfunktion auf die Prädiktoren (unabhängige Variablen) . Jeder Distributionsfamilie ist eine kanonische Verknüpfungsfunktion zugeordnet. Im Fall von Poisson ist die kanonische Verknüpfung beispielsweise das Protokoll . Die kanonischen Verknüpfungen sind fast immer die Standardverknüpfungen, aber in den meisten Programmen haben Sie im Allgemeinen mehrere Auswahlmöglichkeiten innerhalb jeder Distributionsauswahl. Für die binomische der logit die kanonische Link (der lineare Prädiktor ist modelliert , die logarithmische Wahrscheinlichkeit eines Erfolgs oder eine "1") und für das Gamma ist die kanonische Verknüpfung die Umkehrung - aber in beiden Fällen werden häufig andere Verknüpfungsfunktionen verwendet.log(p1−p)
Wenn Ihre Antwort also und Ihre Prädiktoren X 1 und X 2 waren , können Sie mit einer Poisson-Regression mit dem Log-Link beschreiben, wie der Mittelwert von Y mit den X zusammenhängt:YX1X2YX
E(Yi)=μi
logμi=ηiηlogg
ηi=β0+β1x1i+β2x2i
3) Die Varianz der Antwort ist nicht konstant, sondern arbeitet über eine Varianzfunktion (eine Funktion des Mittelwerts, möglicherweise mal eines Skalierungsparameters). Zum Beispiel ist die Varianz eines Poisson gleich dem Mittelwert, während sie für ein Gamma proportional zum Quadrat des Mittelwerts ist. (Die Quasiverteilungen ermöglichen eine gewisse Entkopplung der Varianzfunktion von der angenommenen Verteilung.)
-
Welche Annahmen haben also mit dem zu tun, woran Sie sich bei MLR erinnern?
Die Unabhängigkeit ist immer noch da.
Homoskedastizität wird nicht mehr angenommen; Die Varianz ist explizit eine Funktion des Mittelwerts und variiert daher im Allgemeinen mit den Prädiktoren (während das Modell im Allgemeinen heteroskedastisch ist, nimmt die Heteroskedastizität eine spezifische Form an).
Xβ
Die Verteilung der Antwort ist wesentlich allgemeiner
t
Die Vergleiche zwischen verschachtelten Modellen (über Anova-Tabellen-ähnliche Konfigurationen) sind etwas anders, aber ähnlich (mit asymptotischen Chi-Quadrat-Tests). Wenn Sie mit AIC und BIC vertraut sind, können diese berechnet werden.
Ähnliche Arten von Diagnoseanzeigen werden im Allgemeinen verwendet, sind jedoch möglicherweise schwerer zu interpretieren.
Ein Großteil Ihrer multiplen linearen Regressionsintuition wird sich übertragen, wenn Sie die Unterschiede berücksichtigen.
Yx
E(Y)=exp(η)=exp(Xβ)=exp(β0+β1x)
Var(Y)=σ2
Das heißt, eine Anpassung der kleinsten Quadrate einer exponentiellen Beziehung zwischen Y. und x.
Kann ich die Variablen auf dieselbe Weise transformieren (ich habe bereits festgestellt, dass das Transformieren der abhängigen Variablen ein schlechter Aufruf ist, da es eine natürliche Zahl sein muss)?
Sie möchten die Antwort (DV) (normalerweise) nicht transformieren. Manchmal möchten Sie möglicherweise Prädiktoren (IVs) transformieren, um die Linearität des linearen Prädiktors zu erreichen.
Ich habe bereits festgestellt, dass die negative Binomialverteilung zur Überstreuung meiner Daten beiträgt (die Varianz liegt bei 2000, der Mittelwert bei 48).
Ja, es kann mit Überdispersion umgehen. Achten Sie jedoch darauf, die bedingte Dispersion nicht mit der bedingungslosen zu verwechseln .
Ein weiterer gängiger Ansatz - wenn auch etwas kludiger und meiner Meinung nach etwas weniger befriedigend - ist die Quasi-Poisson-Regression (überdisperse Poisson-Regression).
Mit dem negativen Binom gehört es zur Familie der Exponentialparameter, wenn Sie einen bestimmten Parameter angeben (die Art und Weise, wie es normalerweise für GLMS neu parametrisiert wird). Einige Pakete passen dazu, wenn Sie den Parameter angeben, andere wickeln die ML-Schätzung dieses Parameters (z. B. über die Profilwahrscheinlichkeit) um eine GLM-Routine und automatisieren den Prozess. Einige beschränken Sie auf eine kleinere Anzahl von Distributionen. Sie sagen nicht, welche Software Sie verwenden könnten, daher ist es schwierig, dort viel mehr zu sagen.
Ich denke, normalerweise wird der Log-Link mit negativer binomischer Regression verwendet.
Es gibt eine Reihe von Einführungsdokumenten (die über Google leicht zu finden sind), die einige grundlegende Poisson-GLM- und anschließend negative binomiale GLM-Datenanalysen enthalten. Vielleicht bevorzugen Sie es jedoch, ein Buch über GLMs zu lesen und zuerst eine kleine Poisson-Regression durchzuführen nur um sich daran zu gewöhnen.