Lassen Sie mich zunächst einige Hintergrundinformationen geben. Ich werde meine Fragen am Ende zusammenfassen.
Die Beta-Verteilung, parametrisiert durch ihren Mittelwert und ϕ , hat Var ( Y ) = V ( μ ) / ( ϕ + 1 ) , wobei V ( μ ) = μ ( 1 - μ ) die Varianzfunktion ist.
In einer Beta-Regression (z. B. unter Verwendung des Betareg-Pakets in R) nimmt die Regression Beta-verteilte Fehler an und schätzt die festen Effekte und den Wert von .
In der glm-Regression ist es möglich, eine "Quasi" -Verteilung mit einer Varianzfunktion von . Hier nimmt das Modell also Fehler mit der gleichen Varianzfunktion wie Beta an. Die Regression schätzt dann die festen Effekte und die "Streuung" der Quasi-Verteilung.
Ich vermisse vielleicht etwas Wichtiges, aber es scheint, dass diese beiden Methoden im Wesentlichen identisch sind und sich möglicherweise nur in ihrer Schätzmethode unterscheiden.
Ich habe beide Methoden in R ausprobiert und mich auf einem DV namens "Ähnlichkeit" zurückgebildet, der im Intervall :
Call:
betareg(formula = Similarity ~ N + NK + Step_ent, data = TapData, link = "logit")
Coefficients (mean model with logit link):
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.715175 0.067805 10.547 <2e-16 ***
N -0.063806 0.003858 -16.537 <2e-16 ***
NK -0.362716 0.015008 -24.168 <2e-16 ***
Step_ent -0.696895 0.070233 -9.923 <2e-16 ***
Phi coefficients (precision model with identity link):
Estimate Std. Error z value Pr(>|z|)
(phi) 10.6201 0.2084 50.96 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Type of estimator: ML (maximum likelihood)
Log-likelihood: 3817 on 5 Df
Pseudo R-squared: 0.2633
Number of iterations: 18 (BFGS) + 1 (Fisher scoring)
Call:
glm(formula = Similarity ~ N + NK + Step_ent, family = quasi(link = "logit",
variance = "mu(1-mu)"), data = TapData)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.777451 0.069809 11.137 <2e-16 ***
N -0.069348 0.003983 -17.411 <2e-16 ***
NK -0.364702 0.016232 -22.468 <2e-16 ***
Step_ent -0.704680 0.072491 -9.721 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for quasi family taken to be 0.0838547)
Null deviance: 566.25 on 4974 degrees of freedom
Residual deviance: 422.76 on 4971 degrees of freedom
AIC: NA
Number of Fisher Scoring iterations: 4
Keiner dieser Werte ist jedoch identisch.
Liegt das daran, dass das einzige, was sich in beiden Methoden tatsächlich unterscheidet, das Schätzverfahren ist? Oder gibt es einen grundlegenderen Unterschied, den ich vermisse? Gibt es auch einen Grund, eine Methode der anderen vorzuziehen?