Logistische Regression - Fehlerbedingung und deren Verteilung


31

Zu der Frage, ob in der logistischen Regression (und ihrer angenommenen Verteilung) ein Fehlerbegriff vorhanden ist, habe ich an verschiedenen Stellen gelesen, dass:

  1. Es existiert kein Fehlerbegriff
  2. der Fehlerterm hat eine Binomialverteilung (entsprechend der Verteilung der Antwortvariablen)
  3. Der Fehlerbegriff hat eine logistische Verteilung

Kann das bitte jemand klären?


6
Bei logistischen Regressionen - oder allgemeineren GLMs - ist es normalerweise nicht sinnvoll, in Bezug auf die Beobachtung zu denken x als "Mittelwert + Fehler". Besser in Bezug auf die bedingte Verteilung zu denken. Ich würde nicht so weit gehen zu sagen, dass kein Fehlerbegriff existiert, da es einfach nicht hilfreich ist, in diesen Begriffen zu denken. Ich würde also nicht sagen, dass es eine Wahl zwischen 1. oder 2. ist, da ich sagen würde, dass es im Allgemeinen besser ist, "keines der oben genannten" zu sagen. Unabhängig davon, inwieweit man für "1" argumentieren könnte. oder "2." jedoch "3." ist definitiv falsch. Wo hast du das gesehen? yi|x
Glen_b

1
@ Glen_b: Könnte man für (2) argumentieren? Ich kenne Leute, die es sagen, aber niemals verteidigen, wenn es in Frage gestellt wird.
Scortchi - Wiedereinsetzung von Monica

3
@ Glen_b Alle drei Aussagen haben konstruktive Interpretationen, in denen sie wahr sind. (3) wird unter en.wikipedia.org/wiki/Logistic_distribution#Applications und en.wikipedia.org/wiki/Discrete_choice#Binary_Choice angesprochen .
whuber

@whuber: Ich habe meine Antwort auf (3) korrigiert, die nicht gut durchdacht war. aber immer noch verwirrt, inwiefern (2) richtig sein könnte.
Scortchi

2
@Scortchi Auch wenn Sie Recht haben, dass (2) falsch ist, wenn wir es so interpretieren, dass der Unterschied zwischen einer Beobachtung und ihrer Erwartung eine Binomialverteilung hat, die durch die Erwartung übersetzt wird , dann ist es (trivial) korrekt. Die in Klammern gesetzte Bemerkung in (2) deutet stark darauf hin, dass dies die beabsichtigte Interpretation ist. Man beachte , dass andere nützliche „error Begriffe“ definiert werden kann, auch, wie die und deviance Fehlertermen beschrieben in Hosmer & Lemeshow (und unter geeigneten Einschränkungen diskutiert dort ihre Plätze haben ungefähre χ 2 - Verteilungen). χ2χ2
Whuber

Antworten:


25

In der linearen Regression wird angenommen, dass Beobachtungen einer Gaußschen Verteilung mit einem von den Prädiktorwerten abhängigen mittleren Parameter folgen. Wenn Sie den Mittelwert von den Beobachtungen subtrahieren, erhalten Sie den Fehler : Eine Gauß-Verteilung mit dem Mittelwert Null und unabhängig von den Prädiktorwerten - das heißt, Fehler bei einem Satz von Prädiktorwerten folgen derselben Verteilung.

In logistischen Regressionsbeobachtungen wird angenommen, dass einer Bernoulli-Verteilung mit einem Mittelwertparameter (einer Wahrscheinlichkeit) folgt , der von den Prädiktorwerten abhängig ist. Für jeden gegebenen Prädiktorwert, der einen Mittelwert π bestimmt, gibt es also nur zwei mögliche Fehler: 1 - π , der mit der Wahrscheinlichkeit π auftritt , & 0 - π , der mit der Wahrscheinlichkeit 1 - π auftritt . Für andere Prädiktorwerte werden die Fehler 1 - π 'sein, die mit der Wahrscheinlichkeit π ' auftreten.y{0,1}π1ππ0π1π1ππ& mit einer Wahrscheinlichkeit von auftretenden 1 - π ' . Daher gibt es keine gemeinsame Fehlerverteilung, die von den Prädiktorwerten unabhängig ist, weshalb die Leute sagen, dass kein Fehlerterm existiert (1).0π1π

„Der Fehlerterm hat eine Binomialverteilung“ (2) ist nur sloppiness- „Gauß'sche Modelle Gaußschen Fehler haben, ergo Binomialmodelle hat binomische errors“. (Oder, wie @whuber hervorhebt, es könnte so verstanden werden, dass "der Unterschied zwischen einer Beobachtung und ihrer Erwartung eine Binomialverteilung hat, die durch die Erwartung übersetzt wird".)

"The error term has a logistic distribution" (3) arises from the derivation of logistic regression from the model where you observe whether or not a latent variable with errors following a logistic distribution exceeds some threshold. So it's not the same error defined above. (It would seem an odd thing to say IMO outside that context, or without explicit reference to the latent variable.)

† If you have k observations with the same predictor values, giving the same probability π for each, then their sum y follows a binomial distribution with probability π and no. trials k. Considering ykπ as the error leads to the same conclusions.


1
Could you provide an simple example regarding the part 'no error term exists'. I'm having troubles understanding it the way it's written.
quirik

@Scortchi I'm having trouble following the case when in practice the model is used with some threshold, say 0.5. Then the error is either 1 or 0. Can this then be considered a Bernoulli random variable with parameter 1-π when the true label is 1?
wabbit

17

This has been covered before. A model that is constrained to have predicted values in [0,1] cannot possibly have an additive error term that would make the predictions go outside [0,1]. Think of the simplest example of a binary logistic model -- a model containing only an intercept. This is equivalent to the Bernoulli one-sample problem, often called (in this simple case) the binomial problem because (1) all the information is contained in the sample size and number of events or (2) the Bernoulli distribution is a special case of the binomial distribution with n=1. The raw data in this situation are a series of binary values, and each has a Bernoulli distribution with unknown parameter θ representing the probability of the event. There is no error term in the Bernoulli distribution, there's just an unknown probability. The logistic model is a probability model.


9

To me the unification of logistic, linear, poisson regression etc... has always been in terms of specification of the mean and variance in the Generalized Linear Model framework. We start by specifying a probability distribution for our data, normal for continuous data, Bernoulli for dichotomous, Poisson for counts, etc...Then we specify a link function that describes how the mean is related to the linear predictor:

g(μi)=α+xiTβ

For linear regression, g(μi)=μi.

For logistic regression, g(μi)=log(μi1μi).

For Poisson regression, g(μi)=log(μi).

The only thing one might be able to consider in terms of writing an error term would be to state:

yi=g1(α+xiTβ)+ei where E(ei)=0 and Var(ei)=σ2(μi). For example, for logistic regression, σ2(μi)=μi(1μi)=g1(α+xiTβ)(1g1(α+xiTβ)). But, you cannot explicitly state that ei has a Bernoulli distribution as mentioned above.

Note, however, that basic Generalized Linear Models only assume a structure for the mean and variance of the distribution. It can be shown that the estimating equations and the Hessian matrix only depend on the mean and variance you assume in your model. So you don't necessarily need to be concerned with the distribution of ei for this model because the higher order moments don't play a role in the estimation of the model parameters.


0
  1. No errors exist. We are modeling the mean! The mean is just a true number.
  2. This doesn't make sense to me.
  3. Think the response variable as a latent variable. If you assume the error term is normally distributed, then the model becomes a probit model. If you assume the distribution of the error term is logistic, then the model is logistic regression.

2
I fail to see how this helps one understand a probability model. Probability models are simpler than this makes it seem.
Frank Harrell
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.