Unterschied zwischen logit- und probit-Modellen

299

Was ist der Unterschied zwischen dem Logit- und dem Probit-Modell ?

Ich bin hier mehr daran interessiert zu wissen, wann man logistische Regression und wann man Probit einsetzt.

Wenn es Literatur gibt, die es mit R definiert , wäre das ebenfalls hilfreich.

— Beta
quelle

5

Es gibt kaum einen Unterschied zwischen den Ergebnissen der beiden (siehe Paap & Franses 2000)

1

Ich hatte einmal einen umfangreichen (Bioassay-) Datensatz, in dem wir eine geringfügig bessere Anpassung des Probits sahen, aber dies machte keinen Unterschied für die Schlussfolgerungen.

— kjetil b halvorsen

1

@ Alyas Shah: und das ist die Erklärung, warum mit meinen Daten Probit (geringfügig) besser passt --- weil oberhalb einer bestimmten Dosis die Mortalität 100% und unterhalb einer bestimmten Schwelle die Mortalität 0% beträgt, so dass wir den langsamen Ansatz nicht sehen vom logit!

— kjetil b halvorsen

3

Bei realen Daten wäre es eine rücksichtsvolle Herangehensweise an das Problem, einen Modellvergleich durchzuführen, indem Sie sich mit Daten widersetzen, die entweder aus logit oder probit generiert wurden. Nach meiner Erfahrung tendieren die Daten selten zu einem der beiden Modelle.

— Xi'an,

2

Ich habe gehört, dass der praktische Nutzen der logistischen Verteilung aus ihrer Ähnlichkeit mit der normalen CDF und ihrer viel einfacheren kumulativen Verteilungsfunktion resultiert. Tatsächlich enthält die normale CDF ein Integral, das ausgewertet werden muss - was meiner Meinung nach damals rechenintensiv war.

— dv_bn

144

Sie unterscheiden sich hauptsächlich in der Linkfunktion.

In Logit: $\Pr(Y=1 \mid X) = [1 + e^{-X'\beta}]^{-1}$

In Probit: (Kumulatives normales pdf) $\Pr(Y=1 \mid X) = \Phi(X'\beta)$

Auf die andere Weise hat die Logistik leicht flachere Schwänze. dh die Probit-Kurve fährt die Achsen schneller an als die Logit-Kurve.

Logit ist einfacher zu interpretieren als Probit. Logistische Regression kann als Modellierung von Logquoten interpretiert werden (dh diejenigen, die> 25 Zigaretten pro Tag rauchen, sterben mit 6-facher Wahrscheinlichkeit vor dem 65. Lebensjahr). Normalerweise beginnen die Leute die Modellierung mit logit. Sie können den Wahrscheinlichkeitswert jedes Modells verwenden, um sich für logit vs. probit zu entscheiden.

— vinux
quelle

6

Danke für deine Antwort Vinux. Aber ich möchte auch wissen, wann ich logit und probit verwenden soll. Ich weiß, dass logit populärer ist als probit, und die meisten Fälle verwenden wir die logit-Regression. In einigen Fällen sind Probit-Modelle jedoch nützlicher. Können Sie mir bitte sagen, was das für Fälle sind? Und wie man diese Fälle von normalen Fällen unterscheidet.

— Beta

5

Wenn Sie sich mit dem hinteren Teil der Kurve befassen, ist manchmal die Auswahl von logit oder probit von Bedeutung. Es gibt keine genaue Regel für die Auswahl von probit oder logit. Sie können das Modell anhand der Wahrscheinlichkeit (oder der Log-Wahrscheinlichkeit) oder des AIC auswählen.

— Vinux

12

Danke für den Hinweis! Können Sie näher erläutern, wie Sie zwischen logit und probit wählen können? Insbesondere: (1) Wie erfahre ich, wann Sie sich mit dem hinteren Teil der Kurve befassen? (2) Wie wähle ich ein Modell aus, indem ich die Wahrscheinlichkeit, die Log-Wahrscheinlichkeit oder den AIC betrachte? Was genau sollte ich mir anschauen und wie sollte dies meine Entscheidung über das zu verwendende Modell beeinflussen?

— DW

Können Sie Beispiele nennen, bei denen logit im Vergleich zu probit fehlschlägt? Ich kann die nicht finden, an die du denkst.

— Wok

1

@flies Hier bezeichnet die Transponierte der Matrix .

X^{'}

$X'$

X

$X$

— Mathemanic

445

Ein lineares Standardmodell (z. B. ein einfaches Regressionsmodell) kann als zweiteilig angesehen werden. Diese werden als Strukturkomponente und Zufallskomponente bezeichnet . Zum Beispiel: Die ersten beiden Terme ( ) bilden die strukturelle Komponente, und das (das einen normalverteilten Fehlerterm angibt) ist die zufällige Komponente. Wenn die Antwortvariable nicht normal verteilt ist (z. B. wenn Ihre Antwortvariable binär ist), ist dieser Ansatz möglicherweise nicht mehr gültig. Das verallgemeinerte lineare Modell

Y = β_{0} + β_{1} X + ε where ε \sim N (0, σ^{2})

$Y=\beta_0+\beta_1X+\varepsilon \\ \text{where } \varepsilon\sim\mathcal{N}(0,\sigma^2)$

β_{0} + β_{1} X

$\beta_0+\beta_1X$

ε

$\varepsilon$ (GLiM) wurde entwickelt, um solche Fälle anzugehen. Logit- und Probit-Modelle sind Spezialfälle von GLiMs, die für binäre Variablen geeignet sind (oder für Antwortvariablen mit mehreren Kategorien mit einigen Anpassungen an den Prozess). Ein GLiM besteht aus drei Teilen, einer Strukturkomponente , einer Verknüpfungsfunktion und einer Antwortverteilung . Zum Beispiel: Hier ist wieder die Strukturkomponente, ist die Verknüpfungsfunktion und

g (μ) = β_{0} + β_{1} X

$g(\mu)=\beta_0+\beta_1X$

β_{0} + β_{1} X

$\beta_0+\beta_1X$

g ()

$g()$

μ

$\mu$ ist ein Mittelwert einer bedingten Antwortverteilung an einem bestimmten Punkt im kovariaten Raum. Die Art und Weise, wie wir hier über die Strukturkomponente nachdenken, unterscheidet sich nicht wirklich von der bei linearen Standardmodellen. In der Tat ist dies einer der großen Vorteile von GLiMs. Da die Varianz für viele Verteilungen eine Funktion des Mittelwerts ist, nachdem Sie einen bedingten Mittelwert angepasst haben (und eine Antwortverteilung festgelegt haben), haben Sie das Analogon der Zufallskomponente in einem linearen Modell automatisch berücksichtigt (Hinweis: Dies kann sein komplizierter in der Praxis).

Die Verknüpfungsfunktion ist der Schlüssel zu GLiMs: Da die Verteilung der Antwortvariablen nicht normal ist, können wir die Strukturkomponente mit der Antwort verbinden - sie verknüpft sie (daher der Name). Dies ist auch der Schlüssel zu Ihrer Frage, da logit und probit Links sind (wie @vinux erklärt). Wenn wir die Link-Funktionen verstehen, können wir auf intelligente Weise auswählen, wann wir welche verwenden möchten. Obwohl es viele Verbindungsfunktionen geben kann, die akzeptabel sein können, gibt es oft eine, die speziell ist. Ohne zu weit in das Unkraut vordringen zu wollen (dies kann sehr technisch sein), wird der vorhergesagte Mittelwert nicht notwendigerweise mathematisch mit dem kanonischen Standortparameter der Antwortverteilung identisch sein . $\mu$ . Der Vorteil davon "ist, dass eine minimale ausreichende Statistik für existiert" ( German Rodriguez ). Die kanonische Verknüpfung für binäre Antwortdaten (genauer gesagt die Binomialverteilung) ist das Logit. Es gibt jedoch viele Funktionen, die die Strukturkomponente auf das Intervall abbilden können und daher akzeptabel sind. Das probit ist ebenfalls beliebt, aber es gibt noch andere Optionen, die manchmal verwendet werden (wie das komplementäre Log-Log, , das oft als 'cloglog' bezeichnet wird). Somit gibt es viele mögliche Verbindungsfunktionen und die Wahl der Verbindungsfunktion kann sehr wichtig sein. Die Auswahl sollte auf einer Kombination von Folgendem beruhen: $\beta$ $(0,1)$ $\ln(-\ln(1-\mu))$

Kenntnis der Antwortverteilung,
Theoretische Überlegungen und
Empirische Anpassung an die Daten.

Nachdem ich einige konzeptionelle Hintergründe behandelt habe, die zum besseren Verständnis dieser Ideen erforderlich sind (verzeihen Sie mir), werde ich erläutern, wie diese Überlegungen als Leitfaden für Ihre Linkauswahl verwendet werden können. (Lassen Sie mich bemerken, dass ich denke, dass @ Davids Kommentar genau erfasst, warum in der Praxis unterschiedliche Links ausgewählt werden .) Wenn Ihre Antwortvariable das Ergebnis einer Bernoulli-Studie ist (dh oder ), wird Ihre Antwortverteilung sein binomial, und was Sie tatsächlich modellieren, ist die Wahrscheinlichkeit, dass eine Beobachtung eine ist ). Folglich ordnet jede Funktion, die die reelle Zahlenlinie dem Intervall $0$ $1$ $1$ $\pi(Y=1)$ $(-\infty,+\infty)$ $(0,1)$ wird funktionieren.

Unter dem Gesichtspunkt Ihrer inhaltlichen Theorie würden Sie, wenn Sie Ihre Kovariaten als direkt mit der Erfolgswahrscheinlichkeit verbunden betrachten, in der Regel eine logistische Regression wählen, da dies das kanonische Bindeglied ist. Beachten Sie jedoch das folgende Beispiel: Sie werden aufgefordert, high_Blood_Pressureals Funktion einiger Kovariaten zu modellieren . Der Blutdruck selbst ist normalerweise in der Bevölkerung verteilt (das weiß ich eigentlich nicht, aber es scheint auf den ersten Blick vernünftig zu sein), dennoch haben die Kliniker ihn während der Studie dichotomisiert (dh sie haben nur einen hohen Blutdruck oder einen normalen Blutdruck aufgezeichnet). ). In diesem Fall wäre Probit aus theoretischen Gründen von vornherein vorzuziehen. Dies ist, was @Elvis mit "Ihr binäres Ergebnis hängt von einer versteckten Gaußschen Variablen ab" meint.Symmetrisch , wenn man glaubt, dass die Erfolgswahrscheinlichkeit langsam von Null steigt, sich dann aber schneller verjüngt, wenn man sich eins nähert, ist das Cloglog angesagt, etc.

Schließlich ist anzumerken, dass die empirische Anpassung des Modells an die Daten bei der Auswahl einer Verknüpfung wahrscheinlich nicht hilfreich ist, es sei denn, die Formen der betreffenden Verknüpfungsfunktionen unterscheiden sich erheblich (von denen sich logit und probit nicht wesentlich unterscheiden). Betrachten Sie beispielsweise die folgende Simulation:

set.seed(1)
probLower = vector(length=1000)

for(i in 1:1000){      
    x = rnorm(1000)
    y = rbinom(n=1000, size=1, prob=pnorm(x))

    logitModel  = glm(y~x, family=binomial(link="logit"))
    probitModel = glm(y~x, family=binomial(link="probit"))

    probLower[i] = deviance(probitModel)<deviance(logitModel)
}

sum(probLower)/1000
[1] 0.695

Selbst wenn wir wissen, dass die Daten von einem Probit-Modell generiert wurden und 1000 Datenpunkte vorliegen, liefert das Probit-Modell in 70% der Fälle nur eine bessere Anpassung, und selbst dann oft nur eine geringfügige. Betrachten Sie die letzte Iteration:

deviance(probitModel)
[1] 1025.759
deviance(logitModel)
[1] 1026.366
deviance(logitModel)-deviance(probitModel)
[1] 0.6076806

Der Grund dafür ist einfach, dass die Logit- und Probit-Link-Funktionen sehr ähnliche Ausgaben liefern, wenn dieselben Eingaben gegeben werden.

Geben Sie hier eine Bildbeschreibung ein

Die logit- und probit-Funktionen sind praktisch identisch, außer dass das logit etwas weiter von den Grenzen entfernt ist, wenn sie "um die Ecke" gehen, wie @vinux feststellte. (Beachten Sie, dass die Logit und Probit zu bekommen , um optimal auszurichten, die die logit werden muß mal den Wert entsprechende Steigung für die Probit. Darüber hinaus habe ich die cloglog über etwas verschoben haben könnte , so dass sie an der Spitze liegen würden mehr voneinander, aber ich habe es der Seite überlassen, um die Figur besser lesbar zu machen.) Beachten Sie, dass der Holzschuh asymmetrisch ist, während die anderen nicht; es beginnt sich früher, aber langsamer von 0 zu lösen, nähert sich 1 und dreht sich dann scharf. $\beta_1$ $\approx 1.7$

Ein paar Dinge können über Link-Funktionen gesagt werden. Betrachtet man zunächst die Identitätsfunktion ( ) als Verknüpfungsfunktion, so kann man das lineare Standardmodell als Sonderfall des verallgemeinerten linearen Modells verstehen (d. H. Die Antwortverteilung ist normal und die Verknüpfung) ist die Identitätsfunktion). Es ist auch wichtig zu erkennen , dass alles , was Transformation instanziiert die Verbindung richtig an die angewandt wird , Parameter regeln die Antwortverteilung (das heißt, ), nicht die tatsächlichen Antwortdatum $g(\eta)=\eta$ $\mu$ . Da wir in der Praxis nie den zugrunde liegenden Parameter haben, um zu transformieren, bleibt bei Diskussionen über diese Modelle häufig implizit, was als die tatsächliche Verknüpfung angesehen wird, und das Modell wird stattdessen durch die Inverse der Verknüpfungsfunktion dargestellt, die auf die Strukturkomponente angewendet wird . Das heißt: Zum Beispiel wird die logistische Regression normalerweise dargestellt: anstelle von:

μ = g^{- 1} (β_{0} + β_{1} X)

$\mu=g^{-1}(\beta_0+\beta_1X)$

π (Y) = \frac{\exp (β_{0} + β_{1} X)}{1 + \exp (β_{0} + β_{1} X)}

$\pi(Y)=\frac{\exp(\beta_0+\beta_1X)}{1+\exp(\beta_0+\beta_1X)}$

\ln (\frac{π (Y)}{1 - π (Y)}) = β_{0} + β_{1} X

$\ln\left(\frac{\pi(Y)}{1-\pi(Y)}\right)=\beta_0+\beta_1X$

Für einen schnellen und klaren, aber soliden Überblick über das verallgemeinerte lineare Modell siehe Kapitel 10 von Fitzmaurice, Laird & Ware (2004) (auf dem ich mich für Teile dieser Antwort stützte, obwohl dies meine eigene Adaption davon ist) --und anderes - Material, alle Fehler wären meine eigenen). Informationen zum Einbau dieser Modelle in R finden Sie in der Dokumentation zu der Funktion ? Glm im Basispaket.

(Eine letzte Anmerkung später hinzugefügt :) Ich höre gelegentlich Leute sagen, dass Sie das Probit nicht verwenden sollten, weil es nicht interpretiert werden kann. Dies ist nicht wahr, obwohl die Interpretation der Betas weniger intuitiv ist. Mit logistischer Regression, einem eine Einheitsänderung in ist mit einem zugeordneten Änderung der log Quote von ‚Erfolg‘ (alternativ ein -fache Veränderung der odds), alle anderen Faktoren gleich sind. Mit einem Probit wäre dies eine Änderung von . (Denken Sie beispielsweise an zwei Beobachtungen in einem Datensatz mit Punkten von 1 und 2.) Um diese in vorhergesagte Wahrscheinlichkeiten umzuwandeln , können Sie sie durch die normale CDF leiten $X_1$ $\beta_1$ $\exp(\beta_1)$ $\beta_1\text{ }z$ $z$ , oder sie auf einer Tabelle nachschlagen. $z$

(+1 für @vinux und @Elvis. Hier habe ich versucht, einen breiteren Rahmen bereitzustellen, in dem ich über diese Dinge nachdenken und dann die Wahl zwischen logit und probit ansprechen kann.)

— gung
quelle

79

Danke Leute. Ich bin froh, dass das gut zusammengekommen ist. dies ist eigentlich ein gutes Beispiel dafür , wie man die Dinge auf CV von lernen kann Beantwortung Fragen sowie zu fragen und das Lesen andere Antworten: Ich wusste , dass diese Informationen im Voraus, aber nicht ganz gut genug , dass ich es nur kalt schreiben konnte aus. Also habe ich einige Zeit damit verbracht, meine alten Texte zu durchforsten, um herauszufinden, wie das Material zu organisieren und klar zu formulieren ist, und dabei diese Ideen für mich selbst gefestigt.

— Gung

6

@gung Danke für diese Erklärung, es ist eine der klarsten Beschreibungen von GLMs im Allgemeinen, auf die ich gestoßen bin.

— 27.09.12

@whuber "Wenn die Antwortvariable nicht normal verteilt ist (z. B. wenn Ihre Antwortvariable binär ist), ist dieser Ansatz [Standard-OLS] möglicherweise nicht mehr gültig." Es tut mir leid, Sie (wieder!) Damit zu belästigen, aber ich finde das etwas verwirrend. Ich verstehe, dass es keine bedingungslosen Verteilungsannahmen für die abhängige Variable in OLS gibt. Bedeutet dieses Zitat, dass, da die Antwort so wild nicht normal ist (dh eine binäre Variable), dass ihre bedingte Verteilung bei gegebenem (und damit die Verteilung der Residuen) unmöglich an die Normalität heranreichen kann?

X

$X$

— Landroni

7

@landroni, du möchtest vielleicht eine neue Frage dazu stellen. Kurz gesagt, wenn Ihre Antwort binär ist, kann sich die bedingte Verteilung von Y bei X = xi unmöglich der Normalität annähern. es wird immer binomial sein. Die Verteilung der rohen Residuen wird sich auch niemals der Normalität nähern. Sie werden immer pi & (1-pi) sein. Die Stichprobenverteilung des bedingten Mittels von Y bei X = xi (dh pi) nähert sich jedoch der Normalität.

— Gung

2

Ich teile etwas von Landronis Besorgnis: Schließlich kann ein normalverteiltes Ergebnis nicht normalverteilte Residuen und ein nicht normalverteiltes Ergebnis normalverteilte Residuen aufweisen. Das Problem mit dem Ergebnis scheint es weniger um die Verteilung zu sein per se , als seine Reichweite.

— Alexis

47

Neben vinux 'Antwort, die schon das Wichtigste verrät:

Die Koeffizienten in der logit-Regression haben eine natürliche Interpretation hinsichtlich der Odds Ratio. $\beta$
Die probistische Regression ist das natürliche Modell, wenn Sie glauben, dass Ihr binäres Ergebnis von einer versteckten Gaußschen Variablen abhängt. [Gl. 1] mit deterministisch: genau dann, wenn . $Z = X' \beta + \epsilon\$ $\epsilon \sim \mathcal N(0,1)$ $Y = 1$ $Z > 0$
Allgemeiner und natürlicher ist die probistische Regression das natürlichere Modell, wenn Sie glauben, dass das Ergebnis genau dann , wenn einen Schwellenwert überschreitet , wobei . Es ist leicht zu erkennen, dass dies auf den oben genannten Fall reduziert werden kann: einfach als ; es ist einfach, diese Gleichung zu überprüfen [Gl. 1] gilt immer noch (skalieren Sie die Koeffizienten neu und verschieben Sie den Achsenabschnitt). Diese Modelle wurden beispielsweise in medizinischen Zusammenhängen verteidigt, in denen eine unbeobachtete kontinuierliche Variable wäre und z. B. eine Krankheit, die auftritt, wenn $1$ $Z_0 = X' \beta_0 + \epsilon_0$ $c$ $\epsilon \sim \mathcal N(0,\sigma^2)$ $Z_0$ $Z = {1\over \sigma}(Z_0-c)$ $Z_0$ $Y$ $Z_0$ überschreitet eine "pathologische Schwelle".

Sowohl logit- als auch probit-Modelle sind nur Modelle . "Alle Modelle sind falsch, manche sind nützlich", wie Box einmal sagte! Mit beiden Modellen können Sie das Vorhandensein einer Auswirkung von auf das Ergebnis feststellen . außer in einigen sehr speziellen Fällen wird keiner von ihnen "wirklich wahr" sein, und ihre Interpretation sollte mit Vorsicht erfolgen. $X$ $Y$

— Elvis
quelle

17

Es ist auch erwähnenswert, dass die Verwendung von Probit-versus-Logit-Modellen stark von der Diszipliniertradition beeinflusst wird. Zum Beispiel scheinen Ökonomen die Probit-Analyse weitaus gewohnter zu sein, während sich Forscher in der Psychometrie hauptsächlich auf Logit-Modelle verlassen.

— David

Welches Modell steckt hinter dem Werfen einer Münze?

— Skan

32

In Bezug auf Ihre Aussage

Ich bin hier mehr daran interessiert zu wissen, wann man logistische Regression einsetzt und wann man probit einsetzt

Hier gibt es bereits viele Antworten, die bei der Wahl zwischen beiden zu berücksichtigen sind, aber es gibt noch einen wichtigen Aspekt, der noch nicht erwähnt wurde: Wenn Sie sich mit der Verwendung von Mixed-Effects-Logistik oder mit der Untersuchung von Cluster-Assoziationen in Binärdaten befassen möchten Probit-Modelle gibt es eine theoretische Grundlage für die Bevorzugung des Probit-Modells. Dies setzt natürlich voraus, dass es keinen a priori Grund gibt, das logistische Modell zu bevorzugen (z. B. wenn Sie eine Simulation durchführen und wissen, dass es das wahre Modell ist).

Erstens , um zu sehen , warum dies wahr erster Hinweis ist , dass beiden Modelle als schwellenwert kontinuierliche Regressionsmodelle betrachtet werden kann. Als Beispiel betrachten wir das einfache lineare Mischeffektmodell für die Beobachtung innerhalb des Clusters : $i$ $j$

y_{i j}^{⋆} = μ + η_{j} + ε_{i j}

$y^{\star}_{ij} = \mu + \eta_{j} + \varepsilon_{ij}$

Dabei ist der zufällige Effekt des Clusters und der Fehlerterm. Dann werden sowohl das logistische als auch das Probit-Regressionsmodell äquivalent so formuliert, dass sie aus diesem Modell generiert werden und einen Schwellenwert von 0 haben: $\eta_j \sim N(0,\sigma^2)$ $j$ $\varepsilon_{ij}$

y_{i j} = {\begin{cases} 1 & if y_{i j}^{⋆} \geq 0 \\ 0 & if y_{i j}^{⋆} < 0 \end{cases}

$y_{ij} = \begin{cases} 1 & \text{if} \ \ \ y^{\star}_{ij}≥0\\ \\ 0 &\text{if} \ \ \ y^{\star}_{ij}<0 \end{cases}$

Wenn der Term normal verteilt ist, liegt eine Probit-Regression vor, und wenn er logistisch verteilt ist, liegt ein logistisches Regressionsmodell vor. Da die Waage nicht identifiziert wird, werden diese Restfehler als Standardnormal und Standardlogistik angegeben. $\varepsilon_{ij}$

Pearson (1900) zeigte, dass die Korrelationen zwischen den zugrunde liegenden Variablen, wenn multivariate normale Daten generiert und als kategorisch eingestuft wurden, statistisch identifiziert wurden - diese Korrelationen werden als polychrone Korrelationen bezeichnet und, spezifisch für den binären Fall, als tetrachorische Korrelationen . Dies bedeutet, dass in einem Probit-Modell der Intraclass-Korrelationskoeffizient der zugrunde liegenden normalverteilten Variablen:

I C C = \frac{{\hat{σ}}^{2}}{{\hat{σ}}^{2} + 1}

${\rm ICC} = \frac{ \hat{\sigma}^{2} }{\hat{\sigma}^{2} + 1 }$

wird identifiziert, was bedeutet, dass Sie im Probit-Fall die gemeinsame Verteilung der zugrunde liegenden latenten Variablen vollständig charakterisieren können .

Im logistischen Modell wird die zufällige Effektvarianz im logistischen Modell noch identifiziert, sie charakterisiert jedoch die Abhängigkeitsstruktur (und damit die gemeinsame Verteilung) nicht vollständig, da es sich um eine Mischung aus einer normalen und einer logistischen Zufallsvariablen handelt, die die nicht enthält Eigenschaft, dass es vollständig durch seine Mittelwert- und Kovarianzmatrix spezifiziert ist. Die Feststellung dieser ungewöhnlichen parametrischen Annahme für die zugrunde liegenden latenten Variablen macht die Interpretation der Zufallseffekte im logistischen Modell im Allgemeinen weniger klar.

— Makro
quelle

6

Es gibt andere Situationen, in denen man Probit auch vorziehen würde. Ökonometrische Selektionsmodelle (zB Heckman) werden nur mit dem Probit-Modell bewiesen. Ich bin mir dessen weniger sicher, aber ich glaube auch, dass einige SEM-Modelle, bei denen binäre Variablen endogen sind, das Probit-Modell verwenden, da für die Schätzung der maximalen Wahrscheinlichkeit eine multivariate Normalität vorausgesetzt wird.

— Andy W

1

@AndyW, Sie haben Recht mit binären REMs - und das hängt eng mit dem Punkt zusammen, den ich hier angesprochen habe. Die Schätzung (und nachfolgende Interpretation) wird durch die Tatsache gestützt, dass die zugrunde liegenden Korrelationen identifiziert werden und die gemeinsame Verteilung vollständig charakterisieren .

— Makro

29

Ein wichtiger Punkt, der in den vorherigen (ausgezeichneten) Antworten nicht angesprochen wurde, ist der eigentliche Schätzschritt. Multinomial-Logit-Modelle verfügen über ein einfach zu integrierendes PDF, das zu einem Ausdruck der Auswahlwahrscheinlichkeit in geschlossener Form führt. Die Dichtefunktion der Normalverteilung ist nicht so einfach zu integrieren, weshalb Probit-Modelle normalerweise eine Simulation erfordern. Während beide Modelle Abstraktionen von realen Situationen sind, kann logit normalerweise bei größeren Problemen (mehrere Alternativen oder große Datenmengen) schneller verwendet werden.

Um dies deutlicher zu sehen, ist die Wahrscheinlichkeit, dass ein bestimmtes Ergebnis ausgewählt wird, eine Funktion der Prädiktorvariablen und der Fehlerterme (nach Train ). $x$ $\varepsilon$

P = \int I [ε > - β^{'} x] f (ε) d ε

$P = \int I[\varepsilon > -\beta'x] f(\varepsilon)d\varepsilon$ Wobei eine Indikatorfunktion ist, 1, wenn ausgewählt, und Null, wenn nicht. Die Bewertung dieses Integrals hängt stark von der Annahme von . In einem Logit-Modell ist dies eine logistische Funktion und eine Normalverteilung im Probit-Modell. Für ein Logit-Modell wird dies

I

$I$

f (x)

$f(x)$

P = \int_{ε = - β^{'} x}^{\infty} f (ε) d ε = 1 - F (- β^{'} x) = 1 - \frac{1}{\exp (β^{'} x)}

$P=\int_{\varepsilon=-\beta'x}^{\infty} f(\varepsilon)d\varepsilon\\ = 1- F(-\beta'x) = 1-\dfrac{1}{\exp(\beta'x)}$

Für Probit-Modelle gibt es kein derart bequemes Formular.

— gregmacfarlane
quelle

4

Aus diesem Grund werden multinomiale Logit-Funktionen klassisch verwendet, um räumliche Probleme mit diskreten Auswahlen abzuschätzen, obwohl das tatsächliche Phänomen besser durch ein Probit modelliert wird.

— 27.09.12

Wie würden Sie räumliche Elemente in ein DC-Modell integrieren? Ich bin sehr interessiert.

— Gregmacfarlane

2

Aber in der Wahlsituation ist probit flexibler, also wird moore heute verwendet! multinomial logit impliziert die Annahme der Irrelevanz irrelevanter Alternativen, was empirisch nicht immer gerechtfertigt ist.

— kjetil b halvorsen

1

Sie haben Recht, dass die IIA nicht immer gerechtfertigt ist, und Sie haben auch Recht, dass mit modernen Schätzern Probit-Modelle relativ schnell geschätzt werden können. GEV-Modelle lösen jedoch das IIA-Problem und können in bestimmten Situationen die Auswahlstruktur besser abbilden. Ich bin mir auch nicht sicher, ob probit heute "mehr gebraucht wird". in meinem Bereich (Transportmodellierung) bleiben Probit-Modelle eine Neuheit.

— Gregmacfarlane

13

Was ich sagen werde, macht das bisher Gesagte in keiner Weise ungültig. Ich möchte nur darauf hinweisen, dass Probit-Modelle nicht unter IIA-Annahmen (Independence of Irrelevant Alternatives) leiden, und das Logit-Modell ebenfalls.

Um ein Beispiel aus Train's exzellentem Buch zu verwenden. Wenn ich ein Protokoll habe, das vorhersagt, ob ich mit dem blauen Bus fahren oder in meinem Auto fahren werde, würde das Hinzufügen eines roten Busses sowohl vom Auto als auch vom blauen Bus proportional verwendet. Mit einem Probit-Modell können Sie dieses Problem jedoch vermeiden. Anstatt proportional von beiden zu zeichnen, können Sie im Wesentlichen mehr von dem blauen Bus zeichnen, da es sich um engere Substitute handelt.

Das Opfer, das Sie bringen, besteht darin, dass es keine Lösungen in geschlossener Form gibt, wie oben ausgeführt. Probit ist in der Regel mein Favorit, wenn ich mir Sorgen um IIA-Probleme mache. Das heißt nicht, dass es in einem Logit-Framework (GEV-Distributionen) keine Möglichkeiten gibt, IIA zu umgehen. Aber ich habe diese Art von Modellen immer als einen klobigen Weg gesehen, um das Problem zu umgehen. Mit der Rechengeschwindigkeit, die Sie bekommen können, würde ich sagen, mit probit gehen.

— user61417
quelle

1

Könnten Sie bitte die "Unabhängigkeit von irrelevanten Alternativen" erklären?

— Skan

3

Beachten Sie, dass es weiterhin möglich ist, ein multinomiales Probit-Modell zu schätzen, das eine Variante der IIA-Annahme erzwingt (wie im Befehl mprobit in Stata). Um IIA in multinomialer Wahrscheinlichkeit zu beseitigen, müssen Sie die Varianz-Kovarianz-Matrix der latenten Variablenfehler für jede Alternative in der Antwortvariablen modellieren.

— Kenji

8

Einer der bekanntesten Unterschiede zwischen logit und probit ist die (theoretische) Verteilung der Regressionsreste: normal für probit, logistisch für logit (siehe: Koop G. Eine Einführung in die Ökonometrie Chichester, Wiley: 2008: 280).

— Carlo Lazzaro
quelle

2

Aber woher wissen wir, ob unsere Daten eine theoretische normale oder logistische Restverteilung haben sollen? Zum Beispiel, wenn ich eine Münze werfe.

— Skan

8

Ich biete eine praktische Antwort auf die Frage, die sich nur darauf konzentriert, "wann logistische Regression und wann Probit anzuwenden ist", ohne auf statistische Details einzugehen, sondern sich auf statistische Entscheidungen zu konzentrieren. Die Antwort hängt von zwei Hauptaspekten ab: Haben Sie eine Disziplinarpräferenz und kümmern Sie sich nur darum, welches Modell besser zu Ihren Daten passt?

Grundlegender Unterschied

Sowohl Logit- als auch Probit-Modelle bieten statistische Modelle, die die Wahrscheinlichkeit angeben, dass eine abhängige Antwortvariable 0 oder 1 ist. Sie sind sehr ähnlich und geben häufig praktisch identische Ergebnisse. Da sie jedoch unterschiedliche Funktionen zur Berechnung der Wahrscheinlichkeiten verwenden, sind ihre Ergebnisse manchmal geringfügig anders.

Disziplinarpräferenz

Einige akademische Disziplinen bevorzugen im Allgemeinen die eine oder andere. Wenn Sie Ihre Ergebnisse veröffentlichen oder einer akademischen Disziplin mit einer bestimmten traditionellen Präferenz präsentieren möchten, sollten Sie sich von dieser Entscheidung abhängig machen, damit Ihre Ergebnisse leichter akzeptabel sind. Zum Beispiel (von Methods Consultants ),

Logit - auch als logistische Regression bezeichnet - ist in Gesundheitswissenschaften wie der Epidemiologie populärer, da Koeffizienten in Bezug auf Quotenverhältnisse interpretiert werden können. Probit-Modelle können verallgemeinert werden, um nicht konstante Fehlervarianzen in fortgeschritteneren ökonometrischen Settings (als heteroskedastische Probit-Modelle bezeichnet) zu berücksichtigen, und werden daher in einigen Kontexten von Ökonomen und Politikwissenschaftlern verwendet.

Der Punkt ist, dass die Unterschiede in den Ergebnissen so gering sind, dass die Fähigkeit Ihres allgemeinen Publikums, Ihre Ergebnisse zu verstehen, die geringfügigen Unterschiede zwischen den beiden Ansätzen überwiegt.

Wenn alles, was Sie interessiert, besser passt ...

Wenn Sie in einer Disziplin forschen, die die eine oder andere nicht bevorzugt, hat mich meine Untersuchung dieser Frage (die besser ist, logit oder probit) zu dem Schluss geführt, dass es im Allgemeinen besser ist, probit zu verwenden , da dies fast immer der Fall ist statistische Anpassung an Daten, die denen des logit-Modells entsprechen oder überlegen sind. Die bemerkenswerteste Ausnahme, wenn logit-Modelle besser passen, sind "extreme unabhängige Variablen" (die ich unten erläutere).

Mein Fazit basiert fast ausschließlich (nach Recherche in zahlreichen anderen Quellen) auf Hahn, ED & Soyer, R., 2005. Probit- und Logit-Modelle: Unterschiede im multivariaten Bereich. Verfügbar unter: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.329.4866&rep=rep1&type=pdf . Hier ist meine Zusammenfassung der praktischen Entscheidungsergebnisse aus diesem Artikel, die sich darauf beziehen, ob Logit-versus-Probit-Multivariate-Modelle besser zu den Daten passen (diese Schlussfolgerungen gelten auch für univariate Modelle, simulieren jedoch nur die Auswirkungen für zwei unabhängige Variablen):

In den meisten Szenarien stimmen die Modelle logit und probit mit den folgenden zwei Ausnahmen gleich gut mit den Daten überein.
Logit ist definitiv besser bei "extrem unabhängigen Variablen" . Hierbei handelt es sich um unabhängige Variablen, bei denen ein besonders großer oder kleiner Wert häufig bestimmt, ob die abhängige Variable eine 0 oder eine 1 ist, wodurch die Auswirkungen der meisten anderen Variablen außer Kraft gesetzt werden. Hahn und Soyer definieren es formal so (S. 4):

Ein extrem unabhängiger variabler Pegel beinhaltet die Beeinflussung von drei Ereignissen. Erstens tritt ein extrem unabhängiger Variablenpegel am oberen oder unteren Extrem einer unabhängigen Variablen auf. Angenommen, die unabhängige Variable x sollte die Werte 1, 2 und 3.2 annehmen. Die extreme unabhängige Variablenebene würde die Werte bei x = 3,2 (oder x = 1) beinhalten. Zweitens muss ein wesentlicher Anteil (z. B. 60%) der Gesamtzahl n auf diesem Niveau liegen. Drittens sollte die Erfolgswahrscheinlichkeit auf dieser Ebene selbst extrem sein (z. B. größer als 99%).

Probit ist besser bei "Random-Effects-Modellen" mit moderaten oder großen Stichprobengrößen (bei kleinen Stichprobengrößen ist es gleich logit). Bei Modellen mit festen Effekten sind probit und logit gleich gut. Ich verstehe nicht wirklich, was Hahn und Soyer in ihrem Artikel unter "Zufallseffektmodellen" verstehen. Obwohl viele Definitionen angeboten werden ( wie in dieser Stapelaustauschfrage ), ist die Definition des Begriffs tatsächlich mehrdeutig und inkonsistent . Aber da logit in dieser Hinsicht niemals probit überlegen ist, wird der Punkt durch einfaches Wählen von probit umstritten.

Ausgehend von Hahn und Soyers Analyse ist meine Schlussfolgerung, immer Probit-Modelle zu verwenden, außer bei extrem unabhängigen Variablen. In diesem Fall sollte logit gewählt werden . Extreme unabhängige Variablen sind nicht allzu häufig und sollten leicht zu erkennen sein. Bei dieser Faustregel spielt es keine Rolle, ob das Modell ein Zufallseffektmodell ist oder nicht. In Fällen, in denen ein Modell ein Zufallseffektmodell ist (wobei Probit bevorzugt wird), aber es gibt extreme unabhängige Variablen (wobei Logit bevorzugt wird), obwohl Hahn und Soyer dies nicht kommentiert haben, ist mein Eindruck aus ihrem Artikel, dass der Effekt von Extreme unabhängige Variablen sind dominanter, weshalb logit bevorzugt wird.

— Dreiteilig
quelle

5

Im Folgenden erkläre ich einen Schätzer, der probit und logit als Sonderfälle verschachtelt und wo man testen kann, was angemessener ist.

Sowohl probit als auch logit können in einem latenten Variablenmodell verschachtelt sein.

y_{i}^{*} = x_{i} β + ε_{i}, ε_{i} \sim G (\cdot),

$y_i^* = x_i \beta + \varepsilon_i,\quad \varepsilon_i \sim G(\cdot),$

wo die beobachtete Komponente ist

y_{i} = 1 (y_{i}^{*} > 0) .

$y_i = \mathbb{1}(y_i^* > 0).$

Wenn Sie wählen , um das normale cdf zu sein, erhalten Sie probit, wenn Sie das logistische cdf wählen, erhalten Sie logit. In jedem Fall hat die Wahrscheinlichkeitsfunktion die Form $G$

ℓ (β) = y_{i} \log G (x_{i} β) + (1 - y_{i}) \log [1 - G (x_{i} β)] .

$\ell(\beta) = y_i \log G(x_i\beta) + (1-y_i) \log[1-G(x_i\beta)].$

Wenn Sie sich jedoch Gedanken darüber machen, welche Annahme Sie getroffen haben, können Sie den Klein & Spady-Schätzer (1993; Econometrica) verwenden. Mit diesem Schätzer können Sie die cdf, vollständig flexibel spezifizieren und anschließend sogar die Gültigkeit von Normalität oder Logistik (?) Testen. $G$

Bei Klein & Spady lautet die Kriteriumsfunktion stattdessen

ℓ (β) = y_{i} \log \hat{G} (x_{i} β) + (1 - y_{i}) \log [1 - \hat{G} (x_{i} β)],

$\ell(\beta) = y_i \log \hat{G}(x_i\beta) + (1-y_i) \log[1-\hat{G}(x_i\beta)],$

wo ist eine nicht - parametrische Schätzung des CDF, beispielsweise einen Nadaraya-Watson kernel Regressionsschätzer geschätzten verwenden, $\hat{G}(\cdot)$

\hat{G} (z) = \sum_{i = 1}^{N} y_{i} \frac{K (\frac{z - x_{i} β}{h})}{\sum_{j = 1}^{N} K (\frac{z - x_{j} β}{h})},

$\hat{G}(z) = \sum_{i=1}^N y_i \frac{ K\left( \frac{z - x_i\beta}{h} \right)}{\sum_{j=1}^N K\left( \frac{z - x_j\beta}{h} \right)},$

wobei die „Kernel“ genannt wird ( in der Regel wird die Gaußsche CDF oder ein dreieckiger Kern gewählt), und ist eine „Bandbreite“. Es gibt Plugin-Werte für letzteres, aber es kann viel komplizierter sein und es kann die äußere Optimierung über komplizierter machen, wenn sich in jedem Schritt ändert ( gleicht den sogenannten Bias-Varianz-Kompromiss aus ). $K$ $h$ $\beta$ $h$ $h$

Verbesserungen: Ichimura hat vorgeschlagen, dass die Kernel-Regression, , die te Beobachtung auslassen sollte; Andernfalls kann die Wahl von durch ein Problem mit Überanpassung in der Probe (zu hohe Varianz) erschwert werden. $\hat{G}$ $i$ $h$

Diskussion: Ein Nachteil des Klein-Spady-Schätzers besteht darin, dass er möglicherweise in lokalen Minima stecken bleibt. Dies liegt daran, dass sich das cdf an die angegebenen -Parameter anpasst . Ich kenne mehrere Studenten, die versucht haben, es umzusetzen und Probleme hatten, Konvergenz zu erreichen und numerische Probleme zu vermeiden. Daher ist es kein einfacher Schätzer, mit dem man arbeiten kann. Darüber hinaus wird der Rückschluss auf die geschätzten Parameter durch die semiparametrische Spezifikation für erschwert . $G$ $\beta$ $G$

— Superpronker
quelle

5

Sie sind sehr ähnlich.

In beiden Modellen kann die Wahrscheinlichkeit, dass bei ist, als die Wahrscheinlichkeit angesehen werden, dass eine zufällige versteckte Variable (mit einer bestimmten festen Verteilung) unter einer bestimmten Schwelle liegt , die linear von abhängt : $Y=1$ $X$ $S$ $X$

P (Y = 1 | X) = P (S < β X)

$P(Y=1|X)=P(S<\beta X)$

Oder äquivalent :

P (Y = 1 | X) = P (β X - S > 0)

$P(Y=1|X)=P(\beta X-S>0)$

Dann kommt es darauf an, was Sie für die Verteilung von wählen : $S$

In der logistischen Regression hat eine logistische Verteilung. $S$
Bei der Probit-Regression hat eine Normalverteilung. $S$

Varianz ist unwichtig, da sie durch Multiplikation von mit einer Konstanten automatisch kompensiert wird . Mean ist ebenfalls unwichtig, wenn Sie einen Intercept verwenden. $\beta$

Dies kann als Schwelleneffekt angesehen werden. Etwas unsichtbares Ergebnis ist eine lineare Funktion von mit etwas Rauschen das wie bei der linearen Regression hinzugefügt wird, und wir erhalten ein Ergebnis von 0/1, indem wir sagen: $E=\beta X-S$ $X$ $-S$

wenn , ist das Ergebnis $E>0$ $Y=1$
wenn , ist das Ergebnis $E<0$ $Y=0$

Der Unterschied zwischen Logistik und Probit liegt in der Differenz zwischen Logistik und Normalverteilung. Es gibt nicht so viel. Einmal angepasst, sehen sie so aus:

Logistik hat schwereren Schwanz. Dies kann einen kleinen Einfluss darauf haben, wie Ereignisse mit geringer (<1%) oder hoher (> 99%) Wahrscheinlichkeit angepasst werden. Praktisch ist der Unterschied in den meisten Situationen nicht einmal spürbar: logit und probit sagen im Wesentlichen dasselbe voraus. Siehe http://scholarworks.rit.edu/cgi/viewcontent.cgi?article=2237&context=article

"Philosophisch" kann logistische Regression gerechtfertigt werden, indem sie dem Prinzip der maximalen Entropie entspricht: http://www.win-vector.com/blog/2011/09/the-equivalence-of-logistic-regression-and-maximum -entropie-modelle /

In Bezug auf die Berechnung: Die Logistik ist einfacher, da die kumulierte Verteilung der Logistikverteilung im Gegensatz zur Normalverteilung eine geschlossene Formel hat. Normalverteilungen haben jedoch gute Eigenschaften, wenn Sie mehrdimensional arbeiten. Deshalb wird Probit in fortgeschrittenen Fällen häufig bevorzugt.

— Benoit Sanchez
quelle