Wie man eine ordinale kategoriale Variable als unabhängige Variable behandelt


18

Ich verwende ein Logit-Modell. Meine abhängige Variable ist binär. Ich habe jedoch eine unabhängige Variable , die kategorischen und enthält die Antworten: 1.very good, 2.good, 3.average, 4.poor and 5.very poor. Es ist also ordinal ("quantitativ kategorisch"). Ich bin mir nicht sicher, wie ich damit im Modell umgehen soll. Ich benutze gretl.

[Anmerkung von @ttnphns: Obwohl die Frage besagt, dass das Modell logit ist (weil die abhängige kategorial ist), ist das entscheidende Problem - ordinale unabhängige Variablen - im Grunde gleich, sei es die abhängige kategoriale oder quantitative. Daher ist die Frage beispielsweise auch für die lineare Regression gleichermaßen relevant - wie für die logistische Regression oder ein anderes Logit-Modell.]


Meine abhängige Variable hat den Wert 0 und 1, ich habe 6 unabhängige Variablen, von denen 3 kategorisch sind. Diese Variablen sind wie "Wie bewerten Sie die lokalen Gesundheitsdienste in Ihrer Region? Wie bewerten Sie die lokalen Transportmittel in Ihrer Region und wie bewerten Sie sie Polizeidienste in Ihrer Nähe? Die Antworten sind sehr gut, gut, durchschnittlich, schlecht und sehr schlecht.
Rahmat

@Tim Wenn die abhängige Variable binär ist, ist keine ordinale Regression erforderlich. Die Implikation besteht darin, einen ordinalen Prädiktor unter Verwendung von Indikatorvariablen (Dummy-Variablen) zu behandeln.
Nick Cox

danke tim, wenn ich mich nicht irre was du sagst ist das ich für alle kategorien dummy erstellen soll ?? Zum Beispiel habe ich fünf Antworten (sehr gut, gut, durchschnittlich, schlecht und sehr schlecht) für eine unabhängige Variable, also sollte ich 5 Dummies erstellen.
Rahmat

Antworten:


14

Das Problem bei ordinalen unabhängigen Variablen besteht darin, dass, da per Definition die wahren metrischen Intervalle zwischen ihren Ebenen nicht bekannt sind , keine geeignete Typbeziehung - abgesehen vom Schirm "monoton" - apriori angenommen werden kann. Wir müssen etwas dagegen tun, zum Beispiel, um "Varianten zu screenen oder zu kombinieren" oder um "das zu bevorzugen, was etwas maximiert".

Wenn Sie darauf bestehen, Ihre Likert-Bewertung IV als Ordnungszahl (anstatt als Intervall oder Nominalzahl) zu behandeln, habe ich zwei Alternativen für Sie.

  1. Verwenden Sie Polynomkontraste, dh jeder dieser im Modell verwendeten Prädiktoren wird nicht nur linear, sondern auch quadratisch und kubisch eingegeben. Somit kann nicht nur der lineare, sondern auch der allgemeinere monotone Effekt erfasst werden (der lineare Effekt entspricht dem Prädiktor, der als Skala / Intervall beibehalten wird, und die anderen beiden Effekte haben nach Geschmack ungleiche Intervalle). Zusätzlich können auch Dummies für jeden Prädiktor eingegeben werden, um den nominalen / faktoriellen Effekt zu testen. Am Ende wissen Sie, wie viel Ihr Prädiktor als Faktor fungiert, wie viel als lineare Kovariate und wie viel als nichtlineare Kovariate. Diese Option ist in nahezu jeder Regression (lineare, logistische, andere generalisierte lineare Modelle) einfach durchzuführen. Es verbraucht df s, daher sollte die Stichprobengröße groß genug sein.
  2. Verwenden Sie eine optimale Skalierungsregression . Dieser Ansatz wandelt einen Ordinalprädiktor monoton in einen Intervallprädiktor um, um den linearen Effekt auf den Prädiktor zu maximieren. CATREG (kategoriale Regression) ist eine Implementierung dieser Idee in SPSS. Ein Problem in Ihrem speziellen Fall ist, dass Sie eine logistische und keine lineare Regression durchführen möchten, CATREG jedoch nicht auf einem Logit-Modell basiert. Ich denke, dieses Hindernis ist relativ gering, da Ihr Vorhersagewert nur aus zwei Kategorien (binär) besteht: Ich meine, Sie könnten immer noch CATREG für eine optimale Skalierung durchführen und dann die endgültige logistische Regression mit den optierten transformierten Skalenvorhersagewerten durchführen.
  3. Beachten Sie auch, dass der Jonckheere-Terpstra- Test im einfachen Fall einer Skala oder einer Ordnungszahl DV und einer Ordnungszahl IV eine vernünftige Analyse anstelle einer Regression sein kann.

Es könnte auch andere Vorschläge geben. Die drei oben genannten sind es, die mir in den Sinn kommen, wenn ich Ihre Frage sofort lese.

Ich empfehle Ihnen auch, diese Themen zu besuchen: Zuordnung zwischen nominal und scale oder ordinal ; Zuordnung zwischen Ordnungszahl und Skala . Sie könnten hilfreich sein, obwohl es sich nicht um spezifische Regressionen handelt.

In diesen Threads geht es jedoch um Regressionen, insbesondere um logistische: Sie müssen nach innen schauen: eins , zwei , drei , vier , fünf .


(+1) (1) Sie können auch nur die ersten Polynomkontraste verwenden, wenn Sie glauben, dass sie ausreichen. (2) Das Definieren von Prädiktoren aus der Antwort in demselben Datensatz sollte eine Gesundheitswarnung enthalten. (3) Sie können auch die Diskrepanz zwischen den Koeffizienten benachbarter Ebenen bestrafen - siehe stats.stackexchange.com/q/77796/17230 .
Scortchi

1
@Scortchi, Danke für den Kommentar. In Bezug auf (2) - ja, insbesondere ist es natürlich zuverlässiger, eine optimale Skalierung für eine separate Teilmenge der Daten vorzunehmen, für die die endgültige Regression durchgeführt wird. (3) - auch danke, ich werde mich damit bekannt machen.
ttnphns

1
Eine andere Möglichkeit ist die Verwendung eines additiven Modells und die Darstellung der ordinalen unabhängigen Variablen über einen Spline.
kjetil b halvorsen

2
@kjetilbhalvorsen, ja es ist möglich, danke. Diese Option ist jedoch bereits in Pt 2 enthalten, da eine der Methoden zur optimalen Skalierung von Ordinalvariablen Spline verwendet.
TTNPHNS

7

Um die anderen hervorragenden Antworten zu ergänzen: Eine moderne Art der Handhabung könnte über ein additives Modell erfolgen, das die ordinale unabhängige Variable über einen Spline darstellt. Wenn Sie sich sicher sind, dass die Variable monoton wirkt, können Sie sich auf einen monotonen Spline beschränken. (Ein Beispiel für die Verwendung von monotonen Splines finden Sie unter Suchen nach Funktionen für Sigmoid-ähnliche Kurven. )

Wenn Sie in R den Ordinalprädiktor zu einem "geordneten Faktor" (beispielsweise mit dem Code ord <- factor(sample(1:5,20,replace=TRUE),ordered=TRUE) ) machen, wird er in einem linearen Modell über orthogonale Polynome dargestellt.


4
Es wäre schön, wenn Sie es ein wenig erweitern und ein paar Details hinzufügen würden, wie es mit ordinalen Prädiktoren funktioniert.
TTNPHNS

0

k-1k


3
n

1
danke tim und nick. Also muss ich alle vier Dummies in der Regression laufen lassen. richtig? Wenn ja, habe ich 3 kategoriale Variablen mit jeweils 5 Antworten. Daher wird mein Modell 12 Variablen haben. richtig?
Rahmat

1
Danke @ NickCox - Ich bin neu in der CV-Welt und schätze die respektvollen Korrekturen
Austin T

1
Leider haben Sie nicht erklärt, warum Dummy-Variablen überhaupt benötigt werden. Ich habe nicht das Gefühl, dass diese Antwort, wie sie aktuell ist, eine Antwort auf die Frage ist.
TTNPHNS

2
Ich glaube nicht, dass man argumentieren muss, dass Indikatoren benötigt werden . Es ist nur so, dass sie die Erfassung einer Vielzahl von Effekten ermöglichen, einschließlich nicht monotoner Beziehungen.
Nick Cox
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.