Wie kann die Kollinearität kategorialer Variablen bei der logistischen Regression vermieden werden?

9

Ich habe das folgende Problem: Ich führe eine mehrfache logistische Regression für mehrere Variablen durch, von denen jede eine nominelle Skala hat. Ich möchte Multikollinearität in meiner Regression vermeiden. Wenn die Variablen kontinuierlich wären, könnte ich den Varianzinflationsfaktor (VIF) berechnen und nach Variablen mit einem hohen VIF suchen. Wenn die Variablen normalerweise skaliert wären, könnte ich die Rangkorrelationskoeffizienten nach Spearman für mehrere Variablenpaare berechnen und den berechneten Wert mit einem bestimmten Schwellenwert vergleichen. Aber was mache ich, wenn die Variablen nur nominell skaliert sind? Eine Idee wäre, einen paarweisen Chi-Quadrat-Test für die Unabhängigkeit durchzuführen, aber die verschiedenen Variablen haben nicht alle die gleichen Co-Domänen. Das wäre also ein weiteres Problem. Gibt es eine Möglichkeit, dieses Problem zu lösen?

— lbf_1994
quelle

1

Kein Duplikat, aber ein ähnliches: stats.stackexchange.com/questions/200720/… . Lassen Sie sich nicht vom Titel irreführen, OP dieser Frage bedeutete unabhängige Variablen. Siehe auch Peter Floms Antwort auf diese Frage: stats.stackexchange.com/questions/72992/…

— TEG

4

Warum wollen Sie "Multikollinearität vermeiden"? Manchmal ist es unvermeidlich, sogar hilfreich und kann durch Ansätze wie Ridge Regression behandelt werden. Wenn Ihre nominalen Variablen einzelne Elemente wären, die zusammen eine Likert-Skala bilden, würden Sie tatsächlich von ihrer Multikollinearität abhängen und könnten die Summe dieser Elemente als Prädiktor verwenden. Was macht es besonders an Ihrer Studie so notwendig, Multikollinearität zu vermeiden?

— EdM

6

Ich würde @ EdMs Kommentar (+1) unterstützen und vorschlagen, einen regulierten Regressionsansatz zu verwenden.

Ich denke, dass ein elastischer Netz / Grat-Regressionsansatz es Ihnen ermöglichen sollte, mit kollinearen Prädiktoren umzugehen. Achten Sie nur darauf, Ihre Feature-Matrix angemessen zu normalisieren, bevor Sie sie verwenden. Andernfalls besteht die Gefahr, dass Sie jedes Feature überproportional regulieren (ja, ich meine die Spalten, Sie sollten sie so skalieren, dass jede Spalte eine Einheitsvarianz und einen Mittelwert von ). $X$ $0/1$ $0$

Natürlich müssten Sie Ihre Ergebnisse gegenseitig validieren, um eine gewisse Stabilität zu gewährleisten. Lassen Sie mich auch bemerken, dass Instabilität kein großes Problem ist, da dies tatsächlich darauf hindeutet, dass es keine offensichtliche Lösung / kein offensichtliches Ergebnis gibt und die einfache Interpretation des GLM-Verfahrens als "Grundwahrheit" inkohärent ist.

— usεr11852
quelle

3

Das ViF ist in Ihrem Fall immer noch eine nützliche Maßnahme, aber die Bedingungsnummer Ihrer Entwurfsmatrix ist ein häufigerer Ansatz für kategoriale Daten.

Die ursprüngliche Referenz ist hier:

Belsley, David A.; Kuh, Edwin; Welsch, Roy E. (1980). "Die Bedingungsnummer". Regressionsdiagnose: Identifizierung einflussreicher Daten und Kollinearitätsquellen. New York: John Wiley & Sons. S. 100–104.

Und hier sind weitere nützliche Links:
https://en.wikipedia.org/wiki/Condition_number

https://epub.ub.uni-muenchen.de/2081/1/report008_statistics.pdf

— Nicolas Schuck
quelle

1

+1. Hm ... Ein bisschen "Blast-from-the-Past" dieser Bericht, aber interessant. Ich vermute, dass dieser Ansatz beim Umgang mit mehreren Variablen mit mehreren Ebenen (ihre Anwendungen sind binäre oder trinäre kategoriale Variablen) schmerzhaft sein wird, aber ja, interessant zu lesen!

— usεr11852

1

Ein anderer Ansatz wäre die Durchführung einer Multiple Correspondence Analysis (MCA) für Ihre multikollinearen unabhängigen Variablen. Danach erhalten Sie orthogonale (vollkommen unabhängige) Komponenten, die Sie als IV in Ihrem Modell verwenden können. Es ist keine Kollinearität vorhanden, aber es ist schwierig, die Auswirkungen Ihrer ursprünglichen Variablen zu interpretieren. Auf der anderen Seite vereint MCA bei Multikollinearität die Effekte Ihrer korrelierten IV-Variablen zu allgemeineren Effekten, die Sie noch besser interpretieren und plausibler finden können.

— Paweł Kozielski-Romaneczko
quelle

0

Sie können die Bi-Variate-Korrelation überprüfen, indem Sie die Rangfolge oder einen anderen nicht parametrischen Test für kategoriale Variablen verwenden. Es ist dasselbe, wie Sie die Korrelationsmatrix für eine Gruppe kontinuierlicher Variablen überprüfen. Verwenden Sie einfach einen anderen Test.

— Evelin Ericksson
quelle

Das OP hat bereits gesagt, dass er dies abgelehnt hat, da seine Variablen nicht kategorisch geordnet sind.

— Mdewey