Warum den Logit-Link in der Beta-Regression verwenden?

13

Vor kurzem war ich daran interessiert, ein Beta-Regressionsmodell für ein proportionales Ergebnis zu implementieren. Beachten Sie, dass dieses Ergebnis nicht in einen Binomialkontext passt, da es in diesem Kontext kein aussagekräftiges Konzept für einen diskreten "Erfolg" gibt. Tatsächlich ist das Ergebnis tatsächlich ein Anteil der Dauer; Der Zähler ist die Anzahl der Sekunden, während eine bestimmte Bedingung aktiv ist, über die Gesamtzahl der Sekunden, in denen die Bedingung aktiv sein konnte. Ich entschuldige mich für die Unklarheiten, aber ich möchte mich nicht zu sehr auf diesen genauen Kontext konzentrieren, da mir klar ist, dass es neben der Beta-Regression eine Vielzahl von Möglichkeiten gibt, einen solchen Prozess zu modellieren, und ich interessiere mich derzeit mehr für Theorie Fragen, die sich bei meinen Versuchen ergeben haben, ein solches Modell zu implementieren (obwohl ich es natürlich bin)

In jedem Fall haben alle Ressourcen, die ich finden konnte, darauf hingewiesen, dass die Beta-Regression normalerweise mithilfe eines Logit- (oder Probit- / Cloglog-) Links angepasst ist und die Parameter als Änderungen der Log-Quoten interpretiert werden. Ich habe jedoch noch keine Referenz gefunden, die tatsächlich eine Rechtfertigung dafür liefert, warum man diesen Link verwenden möchte.

Das Originalpapier von Ferrari & Cribari-Neto (2004) liefert keine Rechtfertigung; Sie stellen lediglich fest, dass die Logit-Funktion aufgrund der Odds-Ratio-Interpretation der potenzierten Parameter "besonders nützlich" ist. Andere Quellen verweisen auf den Wunsch, vom Intervall (0,1) auf die reale Linie abzubilden. Benötigen wir jedoch unbedingt eine Link-Funktion für ein solches Mapping, da wir bereits von einer Beta-Distribution ausgehen? Welche Vorteile bietet die Link-Funktion über die Einschränkungen hinaus, die sich aus der Annahme der Beta-Verteilung ergeben?Ich habe ein paar schnelle Simulationen durchgeführt und keine Vorhersagen außerhalb des (0,1) -Intervalls mit einem Identitätslink gesehen, selbst wenn ich aus Beta-Verteilungen simuliere, deren Wahrscheinlichkeitsmasse weitgehend nahe 0 oder 1 liegt, aber vielleicht meine Simulationen waren nicht allgemein genug, um einige der Pathologien zu erfassen.

Es scheint mir basierend darauf, wie Individuen in der Praxis die Parameterschätzungen aus Beta-Regressionsmodellen (dh als Quotenverhältnisse) interpretieren, dass sie implizit Rückschlüsse auf die Chancen eines "Erfolgs" ziehen; Das heißt, sie verwenden die Beta-Regression als Ersatz für ein Binomialmodell. Vielleicht ist dies in einigen Zusammenhängen angesichts der Beziehung zwischen Beta- und Binomialverteilungen angemessen, aber es scheint mir, dass dies eher ein Sonderfall als der allgemeine sein sollte. In dieser Frage wird eine Antwort für die Interpretation des Quotenverhältnisses in Bezug auf den kontinuierlichen Anteil und nicht auf das Ergebnis gegeben, aber es scheint mir unnötig umständlich zu sein, Dinge auf diese Weise zu interpretieren, anstatt beispielsweise ein Protokoll zu verwenden oder Identitätsverknüpfung und Interpretation von% Änderungen oder Einheitenverschiebungen.

Warum verwenden wir den Logit-Link für Beta-Regressionsmodelle? Ist es einfach eine Frage der Bequemlichkeit, es mit den Binomialmodellen in Beziehung zu setzen?

logit beta-regression

— Ryan Simmons
quelle

8

$g(\mu): (0,1) \rightarrow \mathbb{R}$ $\hat \mu = g^{-1}(x^\top \hat \beta)$ $(0, 1)$ $x$

library("betareg")
data("GasolineYield", package = "betareg")
betareg(yield ~ batch + temp, data = GasolineYield, link = make.link("identity"))
## Error in optim(par = start, fn = loglikfun, gr = if (temporary_control$use_gradient) gradfun else NULL,  : 
##   initial value in 'vmmin' is not finite

Aber natürlich kann man einfach beide Optionen ausprobieren und sehen, ob Probleme mit der Identitätsverknüpfung auftreten und / oder ob dies die Anpassung des Modells verbessert.

$\hat \mu = 0.01$ $x$ $\hat \mu$ $0.02$ . In diesen Szenarien wird dies jedoch oft sehr schlampig behandelt. Daher würde ich argumentieren, dass für ein begrenztes Antwortmodell die Parameter einer Verknüpfungsfunktion sorgfältig interpretiert werden müssen und möglicherweise etwas Übung erfordern. Mein üblicher Rat ist daher (wie in der anderen Diskussion gezeigt, die Sie in Ihrer Frage verlinkt haben), die Auswirkungen für interessierende Regressorkonfigurationen zu untersuchen. Diese sind leichter zu interpretieren und oft (aber nicht immer) (aus praktischer Sicht) für verschiedene Verknüpfungsfunktionen ziemlich ähnlich.

— Achim Zeileis
quelle

10

Es ist falsch, dass die logistische Regression nur zur Modellierung binärer Ergebnisdaten verwendet werden kann. Das logistische Regressionsmodell ist für alle Daten geeignet, bei denen 1) der erwartete Wert des Ergebnisses einer logistischen Kurve als Funktion der Prädiktoren folgt 2) die Varianz des Ergebnisses das erwartete Ergebnis mal eins minus dem erwarteten Ergebnis (oder einem Teil davon) ist 3) (Folge von 2) Die Daten liegen zwischen 0 und 1. Diese Eigenschaften gelten sicherlich für Bernoulli-Daten. Man sollte jedoch einige explorative Statistiken und Diagramme erstellen, bevor man das Logistikmodell sofort als praktikables (und leicht zu implementierendes / zu erklärendes) Mittel zur Beantwortung einer wissenschaftlichen Frage diskreditiert.

Ein logistisches Regressionsmodell ist ein Sonderfall des generalisierten linearen Modells (GLM). Dies bedeutet, dass das Modell konsistente Parameterschätzungen und Inferenzen liefert. Logistische Modelle werden verwendet, um Proportionen, Ordnungsvariablen, Raten, Prüfungsergebnisse, Ränge und alle Arten von nicht-binären Ergebnissen an mehreren Stellen in der Literatur zu modellieren.

Es tut uns leid, dass diese Antwort Ihre Frage später nicht weiterleitet, aber die Angabe der vorherigen Argumentation führt zu einem Missverständnis, das es wert ist, angesprochen zu werden.

Viele R-Benutzer haben vorgeschlagen, die "Warnung", die durch das Anpassen einer kontinuierlichen Antwort an Logistikmodelle entsteht, zu unterdrücken. A „mitten auf der Straße“ Weg ist , um Veränderung family=binomialzu family=quasibinomial. Ein Beispiel für die Simulation dieser Daten, das Anpassen eines Modells und das Erhalten korrekter Schlussfolgerungen wird hier gezeigt:

set.seed(123)
## logistic non-binary response
x <- rep(c(-2, 0, 2), each=50)
n <- length(x)
b0 <- 0
b1 <- 0.3
yhat <- plogis(b0 + b1*x)

do.one <- function(){
  e <- rnorm(n, 0, yhat*(1-yhat))
  y <- yhat + e

  yfixed <- pmin(y, 1)
  yfixed <- pmax(yfixed, 0)

  est <- glm(yfixed ~ x, family=quasibinomial())
  ci <- confint.default(est, level = 0.9)
  cov0 <- b0 > ci[1,1] & b0 < ci[1,2]
  cov1 <- b1 > ci[2,1] & b1 < ci[2,2]
  c(cov0, cov1)
}

reg <- replicate(10000, do.one())
rowMeans(reg)

Bietet eine genaue 90% ige Abdeckung der CIs

— AdamO
quelle

1

Ich schätze die Klarstellung bezüglich des logistischen Regressionsmodells. Sie haben Recht, dass es sich um ein allgemeineres Modell handelt, als oft angenommen wird. Ich bin zögerlich dies als eine Antwort zu akzeptieren, aber, weil es scheint , dass es nicht ganz die Linie der Argumentation genug zu entwickeln. Mir scheint, Sie sagen, dass meine Bedenken hinsichtlich des Logit-Links in einem Beta-Modell unbegründet sind, da ein Logit-Link bei nicht-binären Daten einwandfrei funktioniert. Das ist eine vernünftige Haltung, aber ich glaube, ich komme nicht ganz zum Kern meiner Frage über warum wir das Logit in einem Beta-Modell verwenden und wie es zu interpretieren .

— Ryan Simmons

1

@ RyanSimmons Danke für das Feedback. Ich stimme Ihrer Argumentation hier zu. Ich denke, dass jede "Gelegenheit zum Lernen" eine Antwort rechtfertigt und daher eine Frage viele mögliche Antworten mit unterschiedlichem Grad an "Richtigkeit" haben kann. Ich habe Ihre Frage, die gut ist, nicht angesprochen, daher wird die "richtige" Antwort möglicherweise noch angezeigt. Ich bin selbst neugierig darauf und versuche, etwas mehr über das Thema zu erfahren.

— AdamO