Umgang mit nicht-binären kategorialen Variablen in der logistischen Regression (SPSS)


10

Ich muss eine binäre logistische Regression mit vielen unabhängigen Variablen durchführen. Die meisten von ihnen sind binär, aber einige der kategorialen Variablen haben mehr als zwei Ebenen.

Was ist der beste Weg, um mit solchen Variablen umzugehen?

Für eine Variable mit drei möglichen Werten müssen beispielsweise zwei Dummy-Variablen erstellt werden. In einem schrittweisen Regressionsverfahren ist es dann besser, beide Dummy-Variablen gleichzeitig oder separat zu testen.

Ich werde SPSS verwenden, aber ich erinnere mich nicht sehr gut daran. Wie geht SPSS mit dieser Situation um?

Darüber hinaus ist es für eine ordinale kategoriale Variable eine gute Sache, Dummy-Variablen zu verwenden, die die ordinale Skala neu erstellen. (Zum Beispiel, unter Verwendung von drei Dummy - Variablen für einen 4-state ordinal variable, setzte 0-0-0für die Stufe , für die Stufe 2 , für die Stufe 3 , und für die Stufe 4 , anstelle von , , und für die 4 Stufen) .11-0-021-1-031-1-140-0-01-0-00-1-00-0-1


2
Dies ist nur eine teilweise Antwort: Auch wenn Sie die Dummies explizit erstellen (anstatt die impliziten Funktionen der Software zu verwenden), halten Sie sie in allen Analysen zusammen. Insbesondere sollten sie alle zusammen in einer schrittweisen Regression eintreten und alle gemeinsam gehen, wobei der p-Wert entsprechend der Gesamtzahl der beteiligten Variablen berechnet wird. (Dies ist sowieso die Empfehlung von Hosmer & Lemeshow, und es macht sehr viel Sinn.)
whuber


Sie sprechen über Ihre unabhängigen Variablen. Es sind nur die abhängigen Variablen, die für die logistische Regression binär sein müssen.
John

1
Hierbei ist zu beachten, dass Sie überhaupt keine schrittweisen Auswahlverfahren anwenden sollten. Sie sind nicht gültig. Wenn das keinen Sinn ergibt / Sie verstehen möchten, warum, kann es Ihnen helfen, meine Antwort hier zu lesen: Algorithmen für die automatische Modellauswahl .
Gung - Reinstate Monica

Antworten:


10

Auf der UCLA-Website finden Sie eine Reihe großartiger Tutorials für jedes Verfahren, aufgeschlüsselt nach dem Ihnen bekannten Softwaretyp. Überprüfen Sie die kommentierte SPSS-Ausgabe: Logistische Regression - Die erwähnte SES-Variable ist kategorisch (und nicht binär). SPSS erstellt automatisch die Indikatorvariablen für Sie. Es gibt auch eine Seite für kategoriale Prädiktoren in der Regression mit SPSS, die spezifische Informationen zum Ändern der Standardcodierungen und eine Seite für die logistische Regression enthält .


7

Die logistische Regression ist eine ziemlich flexible Methode. Es kann leicht als unabhängige Variablen kategoriale Variablen verwenden. Bei den meisten Programmen, die die logistische Regression verwenden, sollten Sie kategoriale Variablen verwenden.

Angenommen, eine Ihrer kategorialen Variablen ist die Temperatur, die in drei Kategorien unterteilt ist: kalt / mild / heiß. Wie Sie vorschlagen, können Sie dies als drei separate Dummy-Variablen mit dem Wert 1 oder 0 interpretieren. Die Software sollte jedoch zulassen, dass Sie stattdessen eine einzelne kategoriale Variable mit dem Textwert kalt / mild / heiß verwenden. Und die Logit-Regression würde für jede der drei Temperaturbedingungen einen Koeffizienten (oder eine Konstante) ableiten. Wenn einer nicht signifikant ist, kann die Software oder der Benutzer ihn leicht herausnehmen (nachdem t stat und p Wert beobachtet wurden).

Der Hauptvorteil der Gruppierung kategorialer Variablenkategorien in eine einzige kategoriale Variable ist die Modelleffizienz. Eine einzelne Spalte in Ihrem Modell kann so viele Kategorien verarbeiten, wie für eine einzelne kategoriale Variable erforderlich sind. Wenn Sie stattdessen eine Dummy-Variable für jede Kategorie einer kategorialen Variablen verwenden, kann Ihr Modell schnell zu zahlreichen Spalten wachsen, die angesichts der genannten Alternative überflüssig sind.


1
@gaetan Ich verstehe die Bemerkung über eine einzelne Spalte gegenüber mehreren Spalten nicht. Schlagen Sie vor, dass kategoriale Variablen in einer einzelnen Spalte als 1, 2, 3 usw. codiert werden sollten, anstatt Dummy-Variablen zu verwenden? Ich bin mir nicht sicher, ob dies für mich sinnvoll ist, da Sie dann eine implizite Einschränkung auferlegen, dass der Unterschied in der Auswirkung auf den dv zwischen Stufe 1 und 2 der gleiche ist wie der Unterschied in der Auswirkung auf den dv zwischen den Stufen 2 und 3. Vielleicht ich vermisse etwas.

1
@ Gaetan Ich bin nicht sicher, ob ich dir folge. Wie genau wandelt XLStat die Textwerte von kalt, mild oder heiß zum Zwecke der Schätzung in numerische Werte um? Wenn es eine Methode gibt, mit der Sie die Auswirkungen kategorialer Variablen ohne Verwendung von Dummy-Variablen abschätzen können, sollte dies sicherlich unabhängig von der von Ihnen verwendeten Software sein, da eine konzeptionelle / modellbasierte Logik zugrunde liegen sollte.

kk1

1
@Gatean Ok, in diesem Fall kann dasselbe in SPSS gemacht werden (Sie haben die Wahl zwischen numerisch / ordinal / nominal für jede Variable) - dann wird die Entwurfsmatrix entsprechend aufgebaut.
Chl

2
@Gaetan @chl Um mein Verständnis zusammenzufassen: Die Funktionen von SPSS und XLStat, mit denen Sie die Messskala (nominal, ordinal usw.) angeben können, verringern die Größe der Datendatei. In beiden Fällen verwendet die Software jedoch das richtige Codierungsschema (z. B. Erweitern einer nominalen Variablen mit J-Kategorien in J-1-Dummy-Variablen) als Teil des Schätzprozesses im Hintergrund. Wäre das eine faire Einschätzung der Situation?

0

Nach meinem Verständnis ist es gut, Dummy-Variablen für kategoriale / nominale Daten zu verwenden, während wir für ordinale Daten die Codierung von 1,2,3 für verschiedene Ebenen verwenden können. Für Dummy-Variablen codieren wir 1, wenn dies für eine bestimmte Onservation zutrifft, und 0, wenn dies nicht der Fall ist. Auch Dummy-Variablen sind 1 kleiner als die Nr. Von Ebenen, zum Beispiel in binär, haben wir 1. Eine Beobachtung von '0' in der Dummy-Variablen ergibt automatisch 1 für den nicht codierten Dummy.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.