Ist es technisch „gültig“, eine logistische Regression mit einer abhängigen Variablen anzupassen, die ein Anteil ist?


8

Mehrere Beiträge ( hier und hier ) legen nahe, dass die Beta-Regression besser geeignet ist, wenn die abhängige Variable natürlich zwischen 0 und 1 liegt. Meine Frage ist, ob es technisch falsch ist, eine logistische Regression an die proportionale Antwortvariable anzupassen, wenn man die Angemessenheit beiseite lässt. R gibt eine Warnung aus, erzeugt aber dennoch ein Ergebnis.

Es scheint mir, dass die Wahrscheinlichkeitsfunktion keine gültige Wahrscheinlichkeit ist, wenn die Antwortvariable proportional statt binär ist, aber mathematisch gesehen kann sie immer noch minimiert werden, um eine Lösung zu erhalten. Ich frage mich, welche Verletzung / Fehler, wenn überhaupt, gemacht wird, wenn eine logistische Regression an proportionale Daten angepasst wird.


Zusätzlich zu den folgenden Antworten: Hier ist ein weiterer Beitrag, der sich mit dieser Frage befasst.
COOLSerdash

Antworten:


8

Was Sie vorschlagen, wird manchmal als gebrochenes Logit bezeichnet. Es hat sicherlich seine Vorzüge, solange Sie daran denken, robuste Standardfehler zu verwenden. 2010 hielt ich auf dem Treffen der deutschen Stata-Benutzer einen Vortrag, in dem ich unter anderem die Beta-Regression und das fraktionierte Logit verglich. Die Folien finden Sie hier: http://www.maartenbuis.nl/presentations/berlin10.pdf


(+1) Maarten, eine andere Frage: Ich habe gelesen, dass binomiales GLM für Bruch- / Proportionsantworten verwendet werden kann, wenn die Gesamtzahl der Versuche für jeden Bruch / Anteil angegeben wird (in R erfolgt dies mit einem weightsArgument an glm), siehe z. B. hier stats.stackexchange.com/a/26779/28666 . In welcher Beziehung steht "Fractional Logit" mit "robusten Standardfehlern" zu diesem Ansatz? Ist es dasselbe oder nicht?
Amöbe

2
@amoeba es ist anders. Stellen Sie sich ein gebrochenes Logit als Modell für den mittleren Anteil vor, während Sie vorgeschlagen haben, ein Logit-Modell wiederherzustellen.
Maarten Buis

6

Modelle dieser Art werden häufig als eine Art verallgemeinertes lineares Modell definiert und verwendet. Eine kurze Übersicht finden Sie unter http://www.stata-journal.com/article.html?article=st0147. Das Argument ist, dass das Binom eine vernünftige Familie ist, selbst für kontinuierliche Proportionen, da sich die Varianz auch 0 nähert, wenn sich der Mittelwert nähert entweder 0 oder 1.

Ob bestimmte Programme oder Funktionen in einer bestimmten Software diese unterstützen, ist eine andere Frage. Zu sagen, dass "R eine Warnung auslöst, aber dennoch ein Ergebnis liefert", liefert nur wenige Informationen. Auf welches Paket beziehen Sie sich? Ist es wirklich das einzig relevante Paket? Wie der Artikel, auf den gerade verwiesen wird, zeigt, wird dieses Modell beispielsweise in Stata gut unterstützt.

Dies lässt noch Raum für eine detaillierte Diskussion der relativen Vorzüge eines Logit-Modells für kontinuierliche Proportionen und Beta-Regression.


1
+1 auf diese alte Antwort nach der heutigen Diskussion an anderer Stelle. Ich möchte Sie dennoch ermutigen, eine Antwort zu diesem Ansatz in stats.stackexchange.com/questions/29038 zu veröffentlichen .
Amöbe

1
Einige Kommentare dazu, wie dies in R funktioniert, finden sich z. B. in den Kommentaren unter dieser Antwort stats.stackexchange.com/a/43369 in einem verwandten Thread.
Amöbe
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.