Warum verwenden Wirtschaftsforscher die lineare Regression für binäre Antwortvariablen?


13

In letzter Zeit musste ich mehrere Artikel in Wirtschaftswissenschaften lesen (ein Bereich, mit dem ich nicht allzu vertraut bin). Eine Sache, die mir aufgefallen ist, ist, dass mit OLS angepasste lineare Regressionsmodelle allgegenwärtig sind, selbst wenn die Antwortvariable binär ist. Meine Frage lautet daher:

Warum wird die lineare Regression beispielsweise der logistischen Regression im Bereich der Ökonomie vorgezogen? Handelt es sich lediglich um eine gängige Praxis, oder handelt es sich um ein Verfahren, das aktiv befürwortet wird (in Abhandlungen, von Lehrern usw.)?

Bitte beachten Sie, dass ich nicht frage, warum die Verwendung der linearen Regression mit einer binären Antwort eine schlechte Idee sein kann oder welche alternativen Methoden es gibt. Im Gegenteil, ich frage mich, warum Menschen in dieser Situation lineare Regression anwenden, weil ich die Antworten auf diese beiden Fragen kenne.


5
Können Sie Beispiele nennen?
Stephan Kolassa

7
Das stimmt nicht. Wirtschaft und Ökonometrie haben auch eine umfangreiche Literatur zu logit and probit und verwandten Modellen. Ich bin auch ein Außenseiter und ich kann den relativen Gebrauch nicht leicht quantifizieren, aber die Literatur ist groß genug, um "allgegenwärtig" zu widerlegen (was bedeutet, überall!). Hier stellt sich die Frage, warum das sogenannte lineare Wahrscheinlichkeitsmodell überhaupt verwendet wird, und ich glaube nicht, dass die Erklärung tiefgründig oder schwer zu finden ist: Es ist einfach zu verstehen und funktioniert manchmal angemessen.
Nick Cox

3
Wirtschaft hat nur ein sehr zufälliges Verhältnis zur Mathematik. Ich würde mir nicht allzu viele Sorgen machen.
Sycorax sagt Reinstate Monica

1
@Sycorax Ich habe ein ähnliches Gefühl. Und wenn man mit Mathe schlampig ist, kann er / sie immer noch etwas bauen, das "funktioniert".
Haitao Du

1
@Sycorax Das ist weder wahr noch fair. Die Aussage, dass Sie sich nicht zu viele Sorgen machen würden, ist für die Frage mit Sicherheit unverantwortlich. Je nach Fachgebiet kann die Wirtschaft eine sehr enge Beziehung zur Mathematik und Statistik haben. Es ist nur so, dass sich Ökonomen oft mit kausalen Schlussfolgerungen befassen, während sie sich zufällig auch mit Beobachtungsdaten auseinandersetzen mussten (wie es viele Sozialwissenschaften tun). Dies macht es äußerst schwierig, eine starke mathematische Genauigkeit zu erreichen, ohne eine gewisse wirtschaftliche Intuition zu entwickeln.
STATUS

Antworten:


17

Dieser Blogeintrag von Dave Giles in seinem ökonometrischen Blog beschreibt hauptsächlich die Nachteile des linearen Wahrscheinlichkeitsmodells (LPM).

Er enthält jedoch eine kurze Liste von Gründen, warum Forscher sich dafür entscheiden, es zu verwenden:

  • Es ist rechnerisch einfacher.
  • Es ist einfacher, die "Randeffekte" zu interpretieren.
  • Es vermeidet das Risiko einer Fehlspezifikation der "Link-Funktion".
  • Es gibt Komplikationen mit Logit oder Probit, wenn Sie endogene Dummy-Regressoren haben.
  • Die geschätzten Randeffekte der LPM-, Logit- und Probit-Modelle sind normalerweise sehr ähnlich, insbesondere wenn Sie eine große Stichprobe haben.

Ich weiß nicht, dass das LPM im Vergleich zu logit oder probit all das ist, was häufig verwendet wird, aber einige der oben genannten Gründe sind für mich vernünftig.


2
+1, danke für den Begriff Lineares Wahrscheinlichkeitsmodell, den ich vorher nicht kannte.
Haitao Du

1
Es gibt einen großartigen Abschnitt dazu in "Mostly Harmless Econometrics" von Angrist und Pischke, wenn Sie an mehr interessiert sind.
shf8888

2

Ich hatte ähnliche Fragen, als ich Artikel aus anderen Akten las. Und in diesem Zusammenhang wurden viele Fragen gestellt, wie zum Beispiel in der Education Data Mining-Community: Warum quadratischen Verlust für Wahrscheinlichkeiten anstelle von logistischen Verlusten verwenden?

Hier werde ich eine Menge persönlicher Meinungen präsentieren.


Ich habe das Gefühl, dass die Verlustfunktion in vielen praktischen Anwendungsfällen keine große Rolle spielt. Einige Forscher wissen vielleicht mehr über Verlustquadrate und bauen ein System daraus auf, es funktioniert immer noch und löst Probleme der realen Welt. Die Forscher kennen möglicherweise nie den Verlust der Logistik oder des Scharniers und möchten ihn ausprobieren. Außerdem sind sie möglicherweise nicht daran interessiert, das optimale mathematische Modell zu finden, sondern möchten echte Probleme lösen, die noch niemand zuvor versucht hat.

Dies ist ein weiteres Beispiel: Wenn Sie diese Antwort auf meine Frage überprüfen, sind sie alle ähnlich. Was sind die Auswirkungen der Auswahl verschiedener Verlustfunktionen bei der Klassifizierung auf einen ungefähren Verlust von 0 bis 1?


Weitere Überlegungen: Eine maschinelle Lernforschung verbringt möglicherweise viel Zeit mit der Auswahl des Modells und der Optimierung des Modells. Dies liegt daran, dass ein maschinell lernender Forscher möglicherweise nicht in der Lage ist, mehr Daten zu sammeln und mehr Maßnahmen zu ergreifen. Die Aufgabe eines maschinell lernenden Forschers ist es, die Mathematik zu verbessern und ein bestimmtes Problem der realen Welt nicht besser zu lösen.

Auf der anderen Seite übertrifft es in der realen Welt alles, wenn die Daten besser sind. Die Wahl eines neuronalen Netzwerks oder einer zufälligen Gesamtstruktur spielt daher möglicherweise keine große Rolle. Alle diese Modelle ähneln denen, die maschinelles Lernen als Werkzeug zur Lösung realer Probleme einsetzen möchten. Eine Person, die nicht an der Entwicklung von Mathematik oder Tools interessiert ist, verbringt möglicherweise mehr Zeit mit der Nutzung spezifischer Domänenkenntnisse, um das System zu verbessern.

Wie ich im Kommentar erwähnt habe. Und wenn man mit Mathe schlampig ist, kann er / sie immer noch etwas bauen, das funktioniert.


1
(+1) Das ist eine Menge "Anführungszeichen" hxd, was sollen sie kommunizieren? Bedeutet "funktioniert", dass sie denken, dass es funktioniert, aber es funktioniert nicht, oder bedeutet es, dass es funktioniert?
Matthew Drury

@MatthewDrury danke für den Kommentar. Ich glaube, ich hatte viele persönliche Gefühle und weiß nicht, wie ich sie aufschreiben soll. Ich denke, viele von ihnen sind nicht formal oder zu subjektiv. Deshalb hatte ich viele Zitate.
Haitao Du

Ich denke, es ist klarer, sie nur als persönliche Meinungen zu kennzeichnen. Dies ist, was ich in der Klasse mit Schülern mache: "Dies grenzt an persönliche Meinung, aber SVMs saugen" (kein wirkliches Beispiel, oder ist es ...)
Matthew Drury

@MatthewDrury, danke, dass du mich beim Schreiben beraten hast. Nein, die Antwort enthält keine Anführungszeichen!
Haitao Du
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.