Bayesianisches Logit-Modell - intuitive Erklärung?

Ich muss gestehen, dass ich in keiner meiner Klassen, Studenten oder Absolventen, von diesem Begriff gehört habe.

Was bedeutet es für eine logistische Regression, Bayesianisch zu sein? Ich suche nach einer Erklärung mit einem Übergang von der regulären Logistik zur Bayes'schen Logistik, ähnlich der folgenden:

Dies ist die Gleichung im linearen Regressionsmodell: . $E(y) = \beta_0 + \beta_1x_1 + ... + \beta_nx_n$

Dies ist die Gleichung im logistischen Regressionsmodell: . Dies geschieht, wenn y kategorisch ist. $\ln(\frac{E(y)}{1-E(y)}) = \beta_0 + \beta_1x_1 + ... + \beta_nx_n$

Was wir getan haben, ist in ändern . $E(y)$ $\ln(\frac{E(y)}{1-E(y)})$

Was wird nun mit dem logistischen Regressionsmodell in der Bayes'schen logistischen Regression gemacht? Ich vermute, das hat nichts mit der Gleichung zu tun.

Diese Buchvorschau scheint zu definieren, aber ich verstehe nicht wirklich. Was ist das alles vorher, Wahrscheinlichkeitszeug? Was ist $\alpha$ ? Darf jemand bitte diesen Teil des Buches oder das Bayes'sche Logit-Modell auf andere Weise erklären?

Hinweis: Dies wurde bereits gefragt, aber meiner Meinung nach nicht sehr gut beantwortet.

— BCLC
quelle

Ich möchte dies nicht in eine Antwort einfügen, da ich denke, dass @Tim das meiste davon abgedeckt hat. Das einzige, was dieser ansonsten guten Antwort fehlt, ist, dass bei der Bayes'schen logistischen Regression und den Bayes'schen generalisierten linearen Modellen (GLMs) im Allgemeinen frühere Verteilungen nicht nur über die Koeffizienten, sondern auch über die Varianzen und Kovarianzen dieser Koeffizienten gelegt werden. Dies ist unglaublich wichtig zu erwähnen, da einer der Hauptvorteile eines Bayes'schen Ansatzes für GLMs die bessere Nachvollziehbarkeit der Spezifizierung und in vielen Fällen auch der Anpassung komplexer Modelle für die Kovarianz der Koeffizienten ist.

— Dreistes Gleichgewicht

@BrashEquilibrium: Sie erwähnen eine mögliche hierarchische Erweiterung der Standard-Bayes'schen Modellierung für ein Logit-Modell. In unserem Buch verwenden wir zum Beispiel einen g-Prior für die , vor dem die feste Kovarianzmatrix von den Kovariaten .

β

$\beta$

X

$X$

— Xi'an

Fair genug auf dem g vor.

— Dreistes Gleichgewicht

Das heißt, es gibt immer noch einen Prior für die Kovarianzen !!!!!! Wenn Sie nicht darüber diskutieren, beschreiben Sie nicht, wie die logistische Regression vollständig funktioniert.

— Dreistes Gleichgewicht

Antworten:

Die logistische Regression kann als lineare Kombination beschrieben werden

η = β_{0} + β_{1} X_{1} + . . . + β_{k} X_{k}

$\eta = \beta_0 + \beta_1 X_1 + ... + \beta_k X_k$

das wird durch die Verknüpfungsfunktion : $g$

g (E (Y)) = η

$g(E(Y)) = \eta$

Dabei ist die Link-Funktion eine Logit- Funktion

E (Y | X, β) = p = {logit}^{- 1} (η)

$E(Y|X,\beta) = p = \text{logit}^{-1}( \eta )$

Dabei nimmt nur Werte in und inverse Logit-Funktionen transformieren die Linearkombination in diesen Bereich. Hier endet die klassische logistische Regression. $Y$ $\{0,1\}$ $\eta$

Wenn Sie sich jedoch daran erinnern, dass für Variablen ist, die nur Werte in annehmen , kann als . In diesem Fall könnte die Ausgabe der Logit-Funktion als bedingte Wahrscheinlichkeit des "Erfolgs" angesehen werden, dh . Die Bernoulli-Verteilung ist eine Verteilung, die die Wahrscheinlichkeit der Beobachtung eines binären Ergebnisses mit einem Parameter beschreibt, sodass wir als beschreiben können $E(Y) = P(Y = 1)$ $\{0,1\}$ $E(Y | X,\beta)$ $P(Y = 1 | X,\beta)$ $P(Y=1|X,\beta)$ $p$ $Y$

y_{i} \sim Bernoulli (p)

$y_i \sim \text{Bernoulli}(p)$

Bei der logistischen Regression suchen wir nach einigen Parametern , die zusammen mit unabhängigen Variablen eine lineare Kombination . In der klassischen Regression ist (wir nehmen an, dass die Verknüpfungsfunktion eine Identitätsfunktion ist). Um jedoch zu modellieren , das Werte in annimmt, müssen wir so transformieren, dass es passt im Bereich . $\beta$ $X$ $\eta$ $E(Y|X,\beta) = \eta$ $Y$ $\{0,1\}$ $\eta$ $[0,1]$

Um die logistische Regression auf Bayes'sche Weise abzuschätzen, nehmen Sie einige Prioritäten für Parameter wie bei der linearen Regression (siehe Kruschke et al., 2012 ) und transformieren die lineare Kombination mit der logit-Funktion , um ihre Ausgabe als zu verwenden Parameter der Bernoulli-Verteilung, der Ihre Variable beschreibt. Also, ja, Sie verwenden die Gleichung und die Logit-Link-Funktion tatsächlich auf die gleiche Weise wie im frequenzistischen Fall, und der Rest funktioniert (z. B. Auswahl von Prioritäten) wie bei der Schätzung der linearen Regression auf Bayes'sche Weise. $\beta_i$ $\eta$ $p$ $Y$

Der einfache Ansatz für die Auswahl von Prioritäten besteht darin, Normalverteilungen (Sie können aber auch andere Verteilungen verwenden, z. B. oder Laplace-Verteilung für ein robusteres Modell) für mit den Parametern und , die voreingestellt oder verwendet werden von hierarchischen Prioritäten . Mit der Modelldefinition können Sie jetzt Software wie JAGS verwenden , um eine Markov-Ketten-Monte-Carlo- Simulation durchzuführen und das Modell zu schätzen. Im Folgenden wird ich JAGS Code für einfaches logistisches Modell Post (Check hier für weitere Beispiele). $t$ $\beta_i$ $\mu_i$ $\sigma_i^2$

model {
   # setting up priors
   a ~ dnorm(0, .0001)
   b ~ dnorm(0, .0001)

   for (i in 1:N) {
      # passing the linear combination through logit function
      logit(p[i]) <- a + b * x[i]

      # likelihood function
      y[i] ~ dbern(p[i])
   }
}

Wie Sie sehen können, wird der Code direkt in die Modelldefinition übersetzt. Die Software zeichnet einige Werte aus normalen Prioritäten für aund bverwendet diese Werte dann zur Schätzung pund schließlich die Wahrscheinlichkeitsfunktion, um zu bewerten, wie wahrscheinlich Ihre Daten bei diesen Parametern sind (dies ist, wenn Sie den Bayes-Satz verwenden, siehe hier für detailliertere Beschreibung).

Das grundlegende logistische Regressionsmodell kann erweitert werden, um die Abhängigkeit zwischen den Prädiktoren mithilfe eines hierarchischen Modells (einschließlich Hyperprioren ) zu modellieren . In diesem Fall können Sie aus der multivariaten Normalverteilung ziehen , wodurch wir Informationen über die Kovarianz zwischen unabhängigen Variablen können $\beta_i$ $\boldsymbol{\Sigma}$

(\begin{matrix} β_{0} \\ β_{1} \\ ⋮ \\ β_{k} \end{matrix}) \sim M V N ([\begin{matrix} μ_{0} \\ μ_{1} \\ ⋮ \\ μ_{k} \end{matrix}], [\begin{matrix} σ_{0}^{2} & σ_{0, 1} & \dots & σ_{0, k} \\ σ_{1, 0} & σ_{1}^{2} & \dots & σ_{1, k} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ σ_{k, 0} & σ_{k, 1} & \dots & σ_{k}^{2} \end{matrix}])

$\begin{pmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_k \end{pmatrix} \sim \mathrm{MVN} \left( \begin{bmatrix} \mu_0 \\ \mu_1 \\ \vdots \\ \mu_k \end{bmatrix}, \begin{bmatrix} \sigma^2_0 & \sigma_{0,1} & \ldots & \sigma_{0,k} \\ \sigma_{1,0} & \sigma^2_1 & \ldots &\sigma_{1,k} \\ \vdots & \vdots & \ddots & \vdots \\ \sigma_{k,0} & \sigma_{k,1} & \ldots & \sigma^2_k \end{bmatrix} \right)$

... aber das geht ins Detail, also lasst uns gleich hier aufhören.

Der "Bayes'sche" Teil hier ist die Auswahl von Prioritäten unter Verwendung des Bayes-Theorems und die Definition des Modells in probabilistischen Begriffen. Hier finden Sie die Definition des "Bayes'schen Modells" und hier eine allgemeine Einführung in den Bayes'schen Ansatz . Sie können auch feststellen, dass das Definieren von Modellen mit diesem Ansatz ziemlich einfach und flexibel ist.

Kruschke, JK, Aguinis, H. & Joo, H. (2012). Es ist an der Zeit: Bayesianische Methoden zur Datenanalyse in den Organisationswissenschaften. Organizational Research Methods, 15 (4), 722 & ndash; 752.

Gelman, A., Jakulin, A., Pittau, GM und Su, Y.-S. (2008). Eine schwach informative Standard-Vorverteilung für logistische und andere Regressionsmodelle. The Annals of Applied Statistics, 2 (4), 1360–1383.

— Tim
quelle

Sie benötigen Beweise für die Abweichungen, nicht nur für die Koeffizienten.

— Dreistes Gleichgewicht

@BCLC nein, für die logistische Regression wird logit als Verknüpfungsfunktion , während eine lineare Kombination ist , z. B. für die lineare Regression ist die Identitätsfunktion, also , dies ist nur eine Standardspezifikation von GLM .

g

$g$

η

$\eta$

η = β_{0} + β_{1} X_{1}

$\eta = \beta_0 + \beta_1 X_1$

g

$g$

E (Y) = η

$E(Y) = \eta$

— Tim

@BCLC überprüfen Sie die Links in meiner Antwort, sie bieten eine Einführung in die Bayes'sche Statistik im Allgemeinen. Dies ist ein viel umfassenderes Thema als das, das in Ihrer ersten Frage erwähnt wurde. Eine nette Einführung finden Sie jedoch in den Referenzen, die ich in meiner Antwort angegeben habe.

— Tim

@ Tim Ich habe dort einen Tippfehler gemacht. Beweise sollen Priors lesen. Grundsätzlich sind die Koeffizienten nicht die einzigen unbekannten Parameter. Die Multinomialverteilung hat auch eine Varianz-Kovarianz-Matrix und normalerweise nehmen wir nicht an, dass sie bekannt ist.

— Dreistes Gleichgewicht

"Der" Bayes'sche "Teil hier ist die Auswahl von Prioritäten unter Verwendung des Bayes-Theorems und die Definition des Modells in probabilistischen Begriffen." Eine gute Referenz ist hier Gelman et al. EIN SCHWACH INFORMATIVER STANDARD VOR DER VERTEILUNG FÜR LOGISTISCHE UND ANDERE REGRESSIONSMODELLE stat.columbia.edu/~gelman/research/published/priors11.pdf

— Dalton Hance

Was ist das alles vorher, Wahrscheinlichkeitszeug?

Das macht es Bayesianisch. Das generative Modell für die Daten ist dasselbe. Der Unterschied besteht darin, dass eine Bayes'sche Analyse eine vorherige Verteilung für interessierende Parameter auswählt und eine hintere Verteilung berechnet oder approximiert , auf der alle Schlussfolgerungen basieren. Die Bayes-Regel bezieht die beiden: Der hintere Teil ist proportional zu den Wahrscheinlichkeitszeiten vor.

$\bf\beta$

Einige frequentistische Modelle können mit einem Bayes'schen Gegenstück mit einem bestimmten Prior verwandt sein, obwohl ich nicht sicher bin, was in diesem Fall entspricht.

— Sean Easter
quelle

β

$\beta$

β

$\beta$

β_{1}, β_{2}, . . ., β_{n}

$\beta_1, \beta_2, ..., \beta_n$

X_{1}

$X_1$

X_{2}

$X_2$

X_{n}

$X_n$

β

$\beta$

@BCLC Um diese zu beantworten, beginne ich mit dem bloßen Prozess der Bayes'schen Inferenz und definiere die Begriffe wie folgt: Bayesianer behandeln alle interessierenden Parameter als Zufallsvariablen und aktualisieren ihre Überzeugungen über diese Parameter im Lichte der Daten. Die vorherige Verteilung drückt ihre Überzeugung über die Parameter aus, bevor die Daten analysiert werden. Die * posteriore Verteilung * - nach der Bayes-Regel das normalisierte Produkt von Prior und Likelihood - fasst den unsicheren Glauben an die Parameter im Lichte des Prior und der Daten zusammen. Bei der Berechnung des Seitenzahns erfolgt die Anpassung.

— Sean Easter

β

$\beta$

p

$p$

p

$p$

Okay, ich glaube, ich verstehe Sie besser, nachdem ich einen Aufsatz zur Lösung eines Problems in der Doctrine of Chances gelesen habe . Vielen Dank SeanEster

— BCLC

P (B)

$P(B)$