Wann wird die logistische Regression in geschlossener Form gelöst?

Nehmen wir $x \in \{0,1\}^d$ und $y \in \{0,1\}$ und nehmen wir an, wir modellieren die Aufgabe der Vorhersage von y mit gegebenem x unter Verwendung der logistischen Regression. Wann können logistische Regressionskoeffizienten in geschlossener Form geschrieben werden?

Ein Beispiel ist, wenn wir ein gesättigtes Modell verwenden.

Das heißt, definiert , $P(y|x) \propto \exp(\sum_i w_i f_i(x_i))$ , wobei $i$ Indizes Sätze in dem Leistungssatz $\{x_1,\ldots,x_d\}$ , und $f_i$ liefern 1 wenn alle Variablen in der $i$ -ten Menge 1 und sonst 0 sind. Dann können Sie jedes $w_i$ in diesem logistischen Regressionsmodell als Logarithmus einer rationalen Funktion der Statistik der Daten ausdrücken .

Gibt es noch andere interessante Beispiele, wenn geschlossene Form existiert?

logistic generalized-linear-model

— Jaroslaw Bulatow
quelle

Ich nehme an, Sie meinen "wann sind die MLEs der Parameter in geschlossener Form?"

— Glen_b

Können Sie näher erläutern, was Sie getan haben? Ihre Frage lautet, als hätten Sie versucht, den gewöhnlichen Schätzer der kleinsten Quadrate für ein logistisches Regressionsproblem abzuleiten?

— Momo

Vielen Dank für den interessanten Beitrag / Frage, Jaroslaw. Haben Sie eine Referenz für das Beispiel, das Sie zeigen?

— Bitweise

Es ist schon eine Weile her, aber möglicherweise war es in Lauritzens "Graphical Models" Buch. Die breiteren Grundlagen der Antwort auf diese Frage sind da - Sie erhalten eine geschlossene Lösung, wenn der (Hyper-) Graph, der durch ausreichende Statistiken gebildet wird, akkordisch ist

— Jaroslaw Bulatow

Dies könnte interessant sein tandfonline.com/doi/abs/10.1080/... Ich glaube , dies ist ein besonderer Fall einer analytischen Lösung ist , wenn man nur eine 2x2 Tabelle hat

— Austin

Antworten:

Wie kjetil b halvorsen ausführte, ist es auf seine Weise ein Wunder, dass die lineare Regression eine analytische Lösung zulässt. Und das nur aufgrund der Linearität des Problems (in Bezug auf die Parameter). In OLS haben Sie was die Bedingungen erster Ordnung hat Für ein Problem mit

\sum_{i} (y_{i} - x_{i}^{'} β)^{2} \to min_{β},

$\sum_i (y_i - x_i' \beta)^2 \to \min_\beta,$

- 2 \sum_{i} (y_{i} - x_{i}^{'} β) x_{i} = 0

$-2 \sum_i (y_i - x_i'\beta) x_i = 0$

p

$p$ Variablen (einschließlich Konstante, falls erforderlich - es gibt auch eine gewisse Regression durch die Ursprungsprobleme), dies ist ein System mit

Gleichungen und

Unbekannten. Am wichtigsten ist, dass es sich um ein lineares System handelt, sodass Sie eine Lösung unter Verwendung der Standardtheorie und -praxis der linearen Algebra finden können . Dieses System hat eine Lösung mit der Wahrscheinlichkeit 1, es sei denn, Sie haben perfekt kollineare Variablen.

p

$p$

p

$p$

Mit der logistischen Regression ist es nicht mehr so einfach. Schreiben Sie die log-Likelihood-Funktion auf, und wenn wir die Ableitung nehmen, um die MLE zu finden, erhalten wir

l (y; x, β) = \sum_{i} y_{i} \ln p_{i} + (1 - y_{i}) \ln (1 - p_{i}), p_{i} = (1 + \exp (- θ_{i}))^{- 1}, θ_{i} = x_{i}^{'} β,

$l(y;x,\beta) = \sum_i y_i \ln p_i + (1-y_i) \ln(1-p_i), \quad p_i = (1+\exp(-\theta_i))^{-1}, \quad \theta_i = x_i' \beta,$

Die Parameter

geben dies auf sehr nichtlineare Weise ein: Für jedes

gibt es eine nichtlineare Funktion, und sie werden addiert. Es gibt keine analytische Lösung (außer wahrscheinlich in einer trivialen Situation mit zwei Beobachtungen, oder so ähnlich), und Sie müssen verwendennichtlineare Optimierungsverfahrendie Schätzungen finden

\frac{\partial l}{\partial β^{'}} = \sum_{i} \frac{d p_{i}}{d θ} (\frac{y_{i}}{p_{i}} - \frac{1 - y_{i}}{1 - p_{i}}) x_{i} = \sum_{i} [y_{i} - \frac{1}{1 + \exp (x_{i}^{'} β)}] x_{i}

$\frac{\partial l}{\partial \beta'} = \sum_i \frac{{\rm d}p_i}{{\rm d}\theta}\Bigl( \frac{y_i}{p_i} - \frac{1-y_i}{1-p_i} \Bigr)x_i = \sum_i \Bigl[y_i-\frac1{1+\exp(x_i'\beta)}\Bigr]x_i$

β

$\beta$

i

$i$

\hat{β}

$\hat\beta$

Ein etwas tieferer Blick auf das Problem (unter Verwendung der zweiten Ableitung) zeigt, dass es sich um ein konvexes Optimierungsproblem handelt, bei dem ein Maximum einer konkaven Funktion (eine verherrlichte multivariate Parabel) gefunden wird. Es gibt also eine von beiden, und jeder sinnvolle Algorithmus sollte dies eher finden schnell, oder die Dinge sprengen ins Unendliche. Letzteres tut zufällig logistische Regression , wenn für einige ${\rm Prob}[Y_i=1|x_i'\beta > c] = 1$ $c$ Sie haben also eine perfekte Vorhersage. Dies ist ein ziemlich unangenehmes Artefakt: Sie würden denken, wenn Sie eine perfekte Vorhersage haben, funktioniert das Modell perfekt, aber seltsamerweise ist es umgekehrt.

— StasK
quelle

Die Frage ist, warum Ihre letzte Gleichung nicht lösbar ist. liegt es an der inversen Divergenz der logistischen Funktion bei 0 und 1 oder an der Nichtlinearität im Allgemeinen?

— Eyaler

(1) In Bezug auf Ihrem letzten Absatz: Aus mathematischer Sicht es tut Arbeit „perfekt“ in dem Sinne , dass ein MLE eine perfekte Trennhyperebene ergeben. Ob sich Ihr numerischer Algorithmus unter diesen Umständen vernünftig verhält, ist eine separate Angelegenheit. In solchen Situationen wird häufig die Laplace-Glättung angewendet.

— Kardinal

@eyaler, ich würde sagen, das liegt an der Nichtlinearität im Allgemeinen. Ich verstehe, dass es eine begrenzte Anzahl von Umständen gibt, unter denen dies gelöst werden kann, obwohl ich nicht weiß, wie diese Umstände aussehen.

— StasK

Ich verstehe nicht, welche mathematische Bedingung vorliegt, die das System keine geschlossene Formlösung haben lässt? Gibt es eine allgemeine Bedingung, unter der die Dinge im Allgemeinen keine geschlossenen Lösungen haben?

— Charlie Parker

Hat die Tatsache, dass die logistische Regression keine geschlossene Form hat, etwas, was man anhand der Iteration der Gradientenabnahme beweisen kann?

— Charlie Parker

Dieser Beitrag war ursprünglich als langer Kommentar gedacht und nicht als vollständige Antwort auf die vorliegende Frage.

Aus der Frage ist es ein wenig unklar, ob das Interesse nur im binären Fall liegt oder vielleicht in allgemeineren Fällen, in denen sie stetig sind oder andere diskrete Werte annehmen.

Ein Beispiel, das die Frage nicht ganz beantwortet, aber verwandt ist und das mir gefällt, befasst sich mit Rangfolgen der Artikelpräferenzen, die durch paarweise Vergleiche erhalten wurden. Das Bradley-Terry-Modell kann als logistische Regression ausgedrückt werden

l O G ich t (Pr ({Y.}_{ich j} = 1)) = α_{ich} - α_{j},

$\mathrm{logit}( \Pr(Y_{ij} = 1) ) = \alpha_i - \alpha_j ,$ und

α_{i}

$\alpha_i$ is an "affinity", "popularity", or "strength" parameter of item

i

$i$ with

Y_{i j} = 1

$Y_{ij} = 1$ indicating item

i

$i$ was preferred over item

j

$j$ in a paired comparison.

If a full round-robin of comparisons is performed (i.e., a pairwise preference is recorded for each unordered $(i,j)$ pair), then it turns out that the rank order of the MLEs $\hat{\alpha}_i$ entsprechen der Rangfolge von $S_i = \sum_{j \neq i} Y_{ij}$ , die Summe der Male, die jedes Objekt einem anderen vorgezogen wurde.

Um dies zu interpretieren, stellen Sie sich ein komplettes Rundenturnier in Ihrem Lieblingswettkampfsport vor. Dieses Ergebnis besagt dann, dass das Bradley-Terry-Modell die Spieler / Teams nach ihrem Gewinnprozentsatz einordnet. Ob dies ein ermutigendes oder enttäuschendes Ergebnis ist, hängt wohl von Ihrer Sichtweise ab.

NB Dieses Rangordnungsergebnis gilt im Allgemeinen nicht, wenn kein vollständiges Round-Robin gespielt wird.

— Kardinal
quelle

I was interested in binary because it was easiest to analyze. I have found a very broad sufficient condition in works of Lauritzen -- you get closed form if a corresponding log-linear model is decomposable

— Yaroslav Bulatov