Welche Bedeutung haben logistische Regressionskoeffizienten?


42

Ich lese gerade einen Artikel über den Wahlort und die Wahlpräferenz bei den Wahlen 2000 und 2004. Darin befindet sich ein Diagramm, in dem die logistischen Regressionskoeffizienten angezeigt werden. Aus Kursen vor Jahren und ein wenig nachlesenIch verstehe unter logistischer Regression eine Möglichkeit, die Beziehung zwischen mehreren unabhängigen Variablen und einer binären Antwortvariablen zu beschreiben. Was mich verwirrt, ist, dass der Süden laut nachstehender Tabelle einen logistischen Regressionskoeffizienten von 0,903 hat. Bedeutet das, dass 90,3% der Südstaatler Republikaner sind? Aufgrund der logistischen Natur der Metrik besteht diese direkte Korrelation nicht. Stattdessen gehe ich davon aus, dass man nur sagen kann, dass der Süden mit 0,903 mehr Republikaner stimmt als die Berge / Ebenen, mit einer Regression von 0,506. Wenn letzteres der Fall ist, woher weiß ich, was wichtig ist und was nicht und ist es möglich, einen Prozentsatz der republikanischen Stimmen unter Berücksichtigung dieses logistischen Regressionskoeffizienten zu extrapolieren. Tabelle mit logistischen Regressionskoeffizienten

Als Randnotiz, bitte bearbeite meinen Beitrag, wenn etwas falsch angegeben ist


Dies ist eher eine Folgefrage (und ich sollte sie wahrscheinlich nicht posten), aber haben Sie einen guten Weg gefunden, um "einen Prozentsatz zu extrapolieren", denn das ist so ziemlich das, wonach ich suche?
Stefan Andersson

2
Ich denke, es wäre besser, wenn Sie diese Frage als eigenständige Frage formulieren und separat veröffentlichen, anstatt sie hier zu beantworten.
Kardinal

Wenn sich jemand über das Papier wundert, dann sind es SC McKee und JM Teigens Probing the Reds and Blues: Sectionalism und Wahllokalisierung bei den US-Präsidentschaftswahlen 2000 und 2004 (2009) Politische Geographie
Alex Nelson

Antworten:


36

Dass der Autor jemanden, der so nachdenklich ist wie Sie, gezwungen hat, eine solche Frage zu stellen, ist ein überzeugendes Beispiel dafür, warum die immer noch viel zu verbreitete Praxis, die Berichterstattung über Regressionsmodellergebnisse auf eine Tabelle wie diese zu beschränken, so inakzeptabel ist.

  1. Sie können, wie bereits erwähnt, versuchen, den Logit-Koeffizienten in einen aussagekräftigen Hinweis auf den für den betreffenden Prädiktor geschätzten Effekt umzuwandeln. Dies ist jedoch umständlich und vermittelt keine Informationen über die Genauigkeit der Vorhersage, die normalerweise in a sehr wichtig ist logistisches Regressionsmodell (insbesondere bei Abstimmungen).

  2. Die Verwendung mehrerer Sternchen zur Angabe von "Signifikanzniveaus" untermauert auch die falsche Annahme, dass p-Werte ein aussagekräftiger Index für die Effektgröße sind ("wow - dass man 3 Sternchen hat !!"). für lautes schreien, mit w / n von 10.000 bis 20.000, sind völlig unbedeutende unterschiede bei p <0,001 bla bla "signifikant".

  3. Es besteht absolut kein Grund, auf diese Weise zu mystifizieren. Das logistische Regressionsmodell ist eine Gleichung, die verwendet werden kann (durch Bestimmungsberechnung oder besser durch Simulation), um die Wahrscheinlichkeit eines von bestimmten Werten abhängigen Ergebnisses für Prädiktoren, die einem Messfehler unterliegen, vorherzusagen. Also sollte der Forscher berichtenWelchen Einfluss haben interessierende Prädiktoren auf die Wahrscheinlichkeit der interessierenden Ergebnisvariablen und des zugehörigen CI, gemessen in Einheiten, deren praktische Bedeutung leicht erfasst werden kann? Um ein sofortiges Erfassen zu gewährleisten, sollten die Ergebnisse grafisch angezeigt werden. Hier könnte der Forscher zum Beispiel berichten, dass die Wahrscheinlichkeit, einen Republikaner zu wählen, im Gegensatz zu einem städtischen Wähler, um X Prozentpunkte steigt (ich schätze es auf 17 im Jahr 2000; "durch 4 teilen" ist eine vernünftige Heuristik) +/- x% bei einem Vertrauensniveau von 0,95 - wenn das etwas ist, das nützlich zu wissen ist.

  4. Das Melden von Pseudo R ^ 2 ist auch ein Zeichen dafür, dass der Modellierer eher mit statistischen Ritualen beschäftigt ist als mit dem Versuch zu beleuchten. Es gibt unzählige Möglichkeiten, "Pseudo R ^ 2" zu berechnen. man könnte sich beschweren, dass der hier verwendete nicht spezifiziert ist, aber warum sich die Mühe machen? Alle sind so gut wie bedeutungslos. Der einzige Grund, warum jemand Pseudo-R ^ 2 verwendet, ist, dass er oder der Prüfer, der ihn quält, (wahrscheinlich vor 25 oder mehr Jahren) erfahren hat, dass die lineare OLS-Regression der heilige Gral der Statistik ist und denkt, das einzige, was man jemals herausfinden will ist "Varianz erklärt." Es gibt viele vertretbare Möglichkeiten, die Angemessenheit des Gesamtmodells für die logistische Analyse zu bewerten, und die Wahrscheinlichkeitsquote liefert aussagekräftige Informationen für den Vergleich von Modellen, die alternative Hypothesen widerspiegeln. King, G. Wie man nicht mit Statistiken lügt. Am. J. Pol. Sci. 30, 666 & ndash; 687 (1986).

  5. Wenn Sie einen Artikel lesen, in dem die Berichterstattung mehr oder weniger auf eine Tabelle wie diese beschränkt ist, lassen Sie sich nicht verwirren, lassen Sie sich nicht einschüchtern und lassen Sie sich auf keinen Fall beeindrucken. Seien Sie stattdessen wütend und sagen Sie dem Forscher, dass er oder sie einen miesen Job macht (insbesondere, wenn er oder sie Ihr lokales intellektuelles Umfeld mit Mystik und Ehrfurcht verschmutzt) / c Sie können eine Tabelle erzeugen, die diese nicht verstehen können. Informationen zu intelligenten und gemäßigten Darstellungen dieser Ideen finden Sie in King, G., Tomz, M. und Wittenberg, J. Statistische Analysen optimal nutzen : Interpretation und Präsentation verbessern . Am. J. Pol. Sci. 44, 347 & ndash; 361 (2000); und Gelman, A., Pasarica, C. & Dodhia, R.Lassen Sie uns üben, was wir predigen: Tabellen in Grafiken verwandeln . Am. Stat. 56, 121 & ndash; 130 (2002).


19

plogp/(1p)

x=1/(1+ez)z=logx1xf1(x)=logx1xx0.3log0.3/0.70.85β00.9030.85+0.904=0.05plogp/(1p)f(0.05)1/(1+e0.05)0.510.4311.0511.05/0.43e0.903

0.85+0.37+0.68=+0.20f(0.20)=1/(1+e0.20)=0.55


2
heuristik: dividiere durch 4 - logit koeffizient / 4 ist ungefähr pct-pt diff in prob. ab 1 Einheitenwechsel. Das ist nicht dasselbe wie "Person w / βsubn charakteristisch = z ist x% wahrscheinlich". Nicht nur (wie erwähnt) muss man β & sub0; addieren und die mit der Referenzklasse verbundene Wahrscheinlichkeit subtrahieren. Es ist auch notwendig, die Prädiktor-Kollinearität zu berücksichtigen. Da B / C südlich mit anderen Prädiktoren korreliert, wird es nicht wahr sein, dass prob. der südlichen Abstimmungsrubrik ist βsub0 - transformierte Logquoten für NE plus transformierte Logquoten für Süd. Besser zu sagen: "Alle anderen sind gleich, da sie aus dem Süden kommen."
dmk38 11.03.11

1
'Die tatsächlichen Gewinnchancen sind von 0,43 auf 1 gesunken'. Waren 0,43 von an erster Stelle gekommen?
Monica Heddneck

0.30.3/(10.3)0.43

6

Die Koeffizienten in der logistischen Regression repräsentieren die Tendenz einer bestimmten Region / Bevölkerungsgruppe, Republikaner zu wählen, verglichen mit einer Referenzkategorie. Ein positiver Koeffizient bedeutet, dass die Region eher Republikaner wählt und umgekehrt für einen negativen Koeffizienten. Ein größerer absoluter Wert bedeutet eine stärkere Tendenz als ein kleinerer Wert.

Die Referenzkategorien sind "Nordosten" und "Stadtwähler", daher stellen alle Koeffizienten Kontraste zu diesem bestimmten Wählertyp dar.

Im Allgemeinen gibt es auch keine Beschränkung für die Koeffizienten in einer logistischen Regression auf [0, 1], auch nicht in absoluten Werten. Beachten Sie, dass der Wikipedia-Artikel selbst ein Beispiel für eine logistische Regression mit Koeffizienten von -5 und 2 enthält.


5

Sie fragten auch: "Woher weiß ich, was wichtig ist und was nicht?" (Ich nehme an, Sie meinen statistisch signifikant, da praktische oder inhaltliche Signifikanz eine andere Sache ist.) Die Sternchen in der Tabelle verweisen auf die Fußnote: Einige Effekte weisen kleine p- Werte auf. Diese werden unter Verwendung eines Wald-Tests der Signifikanz jedes Koeffizienten erhalten. Unter der Annahme einer Zufallsstichprobe bedeutet p <0,05, dass die Wahrscheinlichkeit, dass eine Verbindung so stark wie die beobachtete oder stärkere in einer Stichprobe dieser Größe zu sehen ist, geringer als 0,05 wäre, wenn in der größeren Population kein derartiger Effekt vorhanden wäre . Sie werden auf dieser Site viele Threads sehen, die den subtilen, aber wichtigen verwandten Punkt diskutieren, den p <.05 nicht tut bedeuten, dass es eine Wahrscheinlichkeit von 0,05 gibt, dass in der größeren Bevölkerung kein Zusammenhang besteht.


5

Lassen Sie mich nur die Wichtigkeit von rolando2 und dmk38 hervorheben: Signifikanz wird häufig falsch verstanden, und es besteht ein hohes Risiko, dass dies mit dieser tabellarischen Darstellung der Ergebnisse einhergeht.

Paul Schrodt hat kürzlich eine nette Beschreibung des Problems gegeben:

Den Forschern ist es nahezu unmöglich, sich an die korrekte Interpretation des Signifikanztests zu halten. Der p-Wert gibt nur die Wahrscheinlichkeit an, dass Sie unter den [normalerweise] völlig unrealistischen Bedingungen der Nullhypothese ein Ergebnis erhalten würden. Das ist nicht das, was Sie wissen möchten - Sie möchten normalerweise die Stärke des Effekts einer unabhängigen Variablen in Anbetracht der Daten wissen. Das ist eine Bayes'sche Frage, keine häufig gestellte Frage. Stattdessen sehen wir - ständig - den p-Wert so interpretiert, als gäbe er die Stärke der Assoziation: Dies ist der allgegenwärtige mystische Kult der Sterne und P-Werte, der unsere Tagebücher durchdringt. (Fn) Dies ist nicht, was der p-Wert sagt noch wird es jemals.

Nach meiner Erfahrung ist dieser Fehler kaum zu vermeiden: Selbst sehr vorsichtige Analysten, die sich des Problems voll bewusst sind, wechseln häufig den Modus, wenn sie ihre Ergebnisse verbal besprechen, auch wenn sie das Problem in einer schriftlichen Erklärung vermieden haben. Und lassen Sie uns nicht einmal über die Tausenden von Stunden und Liter Tinte spekulieren, die wir aufgewendet haben, um dies in Abschlussarbeiten zu korrigieren.

(fn) Die Fußnote informiert auch über ein anderes Thema, das von dmk38 erwähnt wird: „[der allgegenwärtige mystische Kult der Sterne und P-Werte] ersetzte den früheren - und ebenso allgegenwärtigen - Kult des höchsten R2, der von King (1986) zerstört wurde. . "


oh-- Ich habe gerade King Cite zu meiner bearbeiteten Antwort hinzugefügt. Der Artikel zerstört tatsächlich R ^ 2-Manie (immer noch endemisch in der Ökonometrie), auch wenn die Statistik eine Bedeutung hat - für die OLS-Regression. King merkt auch an, dass es sich bei dem Pseudo R ^ 2 um Kauderwelsch handelt, der hergestellt wurde, um die Gedankenlosigkeit zu erweitern, die mit "erklärter Varianz" verbunden ist.
dmk38
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.