Warum kann sich die Beta-Regression nicht genau mit Nullen und Einsen in der Antwortvariablen befassen?

Beta-Regression (dh GLM mit Beta-Verteilung und normalerweise der Logit-Link-Funktion) wird häufig empfohlen, um Antworten zu behandeln, die als abhängige Variablen mit Werten zwischen 0 und 1 bezeichnet werden, z. B. Brüche, Verhältnisse oder Wahrscheinlichkeiten. Regression für ein Ergebnis (Verhältnis oder Bruch) zwischen 0 und 1 .

Es wird jedoch immer behauptet, dass die Beta-Regression nicht verwendet werden kann, sobald die Antwortvariable mindestens einmal gleich 0 oder 1 ist. Ist dies der Fall, man braucht zu verwenden entweder Null / Eins-aufgeblasenen Beta - Modell, oder eine Transformation der Antwort machen, etc .: Beta Regression der Anteil Daten einschließlich 1 und 0 .

Meine Frage ist: Welche Eigenschaft der Beta-Verteilung verhindert, dass die Beta-Regression mit exakten Nullen und Einsen umgeht, und warum?

Ich vermute, es ist, dass und nicht in der Unterstützung der Beta-Verteilung sind. Aber für alle Formparameter und , beide Null und Eins sind in der Unterstützung der Beta - Verteilung, es ist nur für kleinere Formparameter , dass die Verteilung an einer oder beiden Seiten ins Unendliche geht. Und vielleicht sind die Beispieldaten so, dass und die die beste Anpassung liefern, beide über . $0$ $1$ $\alpha>1$ $\beta>1$ $\alpha$ $\beta$ $1$

Bedeutet es , dass in einigen Fällen ein könnte in der Tat Regression Verwendung Beta auch mit Nullen / Einsen?

Selbst wenn 0 und 1 die Beta-Verteilung unterstützen, ist die Wahrscheinlichkeit, genau 0 oder 1 zu beobachten, natürlich Null. Aber wie groß ist die Wahrscheinlichkeit, dass ein anderer zählbarer Satz von Werten beobachtet wird? Das kann also kein Problem sein, oder? (Vgl. Diesen Kommentar von @Glen_b).

$\hskip{8em}$

Im Kontext der Beta-Regression wird die Beta-Verteilung unterschiedlich parametrisiert, aber mit sollte sie für alle immer noch genau auf definiert sein . $\phi=\alpha+\beta>2$ $[0,1]$ $\mu$

— Amöbe sagt Reinstate Monica
quelle

Interessante Frage! Ich habe keine Antwort außer den bereits von Kevin Wright gemachten Punkten. Ich denke, dass genaue Nullen und Einsen in Wahrscheinlichkeiten pathologische Fälle sind (wie bei der logistischen Regression), daher sind sie nicht so interessant, da sie nicht auftreten sollten.

— Tim

@ Tim Nun, ich weiß nicht , ob sie sollten oder nicht passieren, aber sie haben sehr oft passieren, sonst würden die Leute fragen nicht Fragen, wie man mit 0 und 1 in der Beta - Regression zu behandeln, würde keine Schreibpapiere über 0- und-1 aufgeblasene Betamodelle usw. Wie auch immer, ich hoffe immer noch auf eine detailliertere Antwort als bei Kevin. Man sollte zumindest erklären, wie diese Begriffe in der Log-Wahrscheinlichkeit entstehen.

— Amöbe sagt Reinstate Monica

Update: Wahrscheinlich liegt es daran, dass PDF an diesen Punkten gleich Null ist, wenn sich 0 und 1 in der Unterstützung befinden, was bedeutet, dass die Wahrscheinlichkeit, diese Werte zu beachten, Null ist. Ich würde immer noch gerne eine Antwort sehen, die dies sorgfältig erklärt.

— Amöbe sagt Reinstate Monica

Welche Verteilung sollte man dann verwenden, wenn die Antwortvariable Werte wie annimmt ?

[0, \infty)

$[0, \infty)$

— Confounded

Weil die Log-Wahrscheinlichkeit sowohl als auch , die bei oder . Siehe Gleichung (4) von Smithson & Verkuilen, " Eine bessere Zitronenpresse? Maximum-Likelihood-Regression mit Beta-verteilten abhängigen Variablen " (direkter Link zu PDF ). $\log(x)$ $\log(1-x)$ $x=0$ $x=1$

— Kevin Wright
quelle

y_{i} = 0

$y_i=0$

y_{i} = 1

$y_i=1$

0

$0$

1

$1$

0

$0$

+ \infty

$+\infty$

0

$0$

1

$1$

0

$0$

1

$1$

0

$0$

0.5

$0.5$

α = β = 2

$\alpha=\beta=2$

0.5

$0.5$

0

$0$

0.5

$0.5$

0

$0$

@amoeba Die Wahrscheinlichkeit hängt von der Wahrscheinlichkeit Dichte , nicht die Wahrscheinlichkeit selbst. Manchmal kann man dieses Problem vermeiden, indem man bei jeder Beobachtung die Wahrscheinlichkeit eines winzigen, aber endlichen (nicht infinitesimalen) Intervalls berücksichtigt (bestimmt z. B. durch die Genauigkeit der Messung) oder indem man die Beta-Verteilungen mit einem sehr engen Gaußschen ( welches die Null und die unendlichen Dichten beseitigt).

— whuber

$log(x)$ $log(1-x)$

$p$ $N$

Infolgedessen würden nach meinem Verständnis der Beta-Regression 0s und 1s intuitiv (unendlich) sicheren Ergebnissen entsprechen.

— meduz
quelle