Was tun mit kollinearen Variablen?

11

Haftungsausschluss: Dies ist für ein Hausaufgabenprojekt.

Ich versuche, das beste Modell für Diamantpreise zu finden, abhängig von mehreren Variablen, und ich scheine bisher ein ziemlich gutes Modell zu haben. Ich bin jedoch auf zwei Variablen gestoßen, die offensichtlich kollinear sind:

>with(diamonds, cor(data.frame(Table, Depth, Carat.Weight)))
                   Table       Depth Carat.Weight
Table         1.00000000 -0.41035485   0.05237998
Depth        -0.41035485  1.00000000   0.01779489
Carat.Weight  0.05237998  0.01779489   1.00000000

Tabelle und Tiefe sind voneinander abhängig, aber ich möchte sie trotzdem in mein Vorhersagemodell aufnehmen. Ich habe einige Untersuchungen an Diamanten durchgeführt und festgestellt, dass Tabelle und Tiefe die Länge über der Oberseite und der Abstand von der oberen zur unteren Spitze eines Diamanten sind. Da diese Preise für Diamanten mit Schönheit in Beziehung zu stehen scheinen und Schönheit mit Proportionen in Beziehung zu stehen scheint, wollte ich ihr Verhältnis einbeziehen, sagen wir , um die Preise vorherzusagen. Ist dies das Standardverfahren für den Umgang mit kollinearen Variablen? Wenn nicht, was ist das? $\frac{Table}{Depth}$

Edit: Hier ist ein Plot von Depth ~ Table: Geben Sie hier die Bildbeschreibung ein

— Mike Flynn
quelle

1

+1 für eine interessante Frage, aber nein, dies ist definitiv kein Standardverfahren für den Umgang mit kolinearen Variablen. Hoffentlich gibt Ihnen jemand eine gute Antwort, warum nicht. Es könnte immer noch eine gute Sache sein, in Ihrem Fall zu tun ...

— Peter Ellis

3

Das Seltsame daran scheint zu sein, dass die Korrelation von -0,4 darauf hindeutet, dass Diamanten, die oben länger sind, von oben nach unten kürzer sind. Dies scheint nicht intuitiv zu sein - sind Sie sicher, dass es richtig ist?

— Peter Ellis

c o r

$cor$

T a b l e

$Table$

D e p t h

$Depth$

@ PeterEllis Mir wurde gesagt, dass dies ein echter Datensatz ist, ja. Wenn Sie sich ein Diagramm von Depth ~ Table ansehen, könnte dies daran liegen, dass die Varianz für hohe Tabellenwerte ausgeblendet wird.

— Mike Flynn

14

Diese Variablen sind korreliert.

Das Ausmaß der linearen Assoziation, das durch diese Korrelationsmatrix impliziert wird, ist nicht entfernt genug hoch, um die Variablen als kollinear zu betrachten.

In diesem Fall würde ich gerne alle drei Variablen für typische Regressionsanwendungen verwenden.

Eine Möglichkeit, Multikollinearität zu erkennen, besteht darin, die Choleski-Zerlegung der Korrelationsmatrix zu überprüfen. Wenn Multikollinearität vorliegt, gibt es einige diagonale Elemente, die nahe Null liegen. Hier ist es auf Ihrer eigenen Korrelationsmatrix:

> chol(co)
     [,1]       [,2]       [,3]
[1,]    1 -0.4103548 0.05237998
[2,]    0  0.9119259 0.04308384
[3,]    0  0.0000000 0.99769741

(Die Diagonale sollte immer positiv sein, obwohl einige Implementierungen aufgrund akkumulierter Kürzungsfehler leicht negativ werden können.)

Wie Sie sehen, beträgt die kleinste Diagonale 0,91, was noch weit von Null entfernt ist.

Im Gegensatz dazu sind hier einige fast kollineare Daten:

> x<-data.frame(x1=rnorm(20),x2=rnorm(20),x3=rnorm(20))
> x$x4<-with(x,x1+x2+x3+rnorm(20,0,1e-4))
> chol(cor(x))
   x1         x2         x3           x4
x1  1 0.03243977 -0.3920567 3.295264e-01
x2  0 0.99947369  0.4056161 7.617940e-01
x3  0 0.00000000  0.8256919 5.577474e-01
x4  0 0.00000000  0.0000000 7.590116e-05   <------- close to 0.

— Glen_b - Monica neu starten
quelle

Danke, ich glaube ich war einfach verwirrt zwischen "korreliert" und "kollinear"

— Mike Flynn

@kingledion Bitte verwenden Sie keine Kommentare, um Einzelpersonen dazu zu bringen, Ihre Frage zu beantworten.

— Glen_b -State Monica

6

Dachte, dieses Diamantschneideschema könnte der Frage einen Einblick geben. Ich kann einem Kommentar kein Bild hinzufügen, daher wurde es zu einer Antwort.

Geben Sie hier die Bildbeschreibung ein

PS. @ PeterEllis 'Kommentar: Die Tatsache, dass "Diamanten, die oben länger sind, von oben nach unten kürzer sind", könnte auf diese Weise sinnvoll sein: Angenommen, alle ungeschnittenen Diamanten sind ungefähr rechteckig (sagen wir). Jetzt muss der Cutter seinen Schnitt mit diesem Begrenzungsrechteck auswählen. Das führt den Kompromiss ein. Wenn sowohl die Breite als auch die Länge zunehmen, entscheiden Sie sich für größere Diamanten. Möglich, aber seltener und teurer. Sinn ergeben?

— neugierig_katze
quelle

2

Die Verwendung von Verhältnissen in der linearen Regression sollte vermieden werden. Sie sagen im Wesentlichen, dass eine lineare Regression dieser beiden Variablen ohne Schnittpunkt linear korreliert würde. Dies ist offensichtlich nicht der Fall. Siehe: http://cscu.cornell.edu/news/statnews/stnews03.pdf

Außerdem messen sie eine latente Variable - die Größe (Volumen oder Fläche) des Diamanten. Haben Sie darüber nachgedacht, Ihre Daten in ein Oberflächen- / Volumenmaß umzuwandeln, anstatt beide Variablen einzuschließen?

Sie sollten ein Restdiagramm dieser Tiefen- und Tabellendaten veröffentlichen. Ihre Korrelation zwischen den beiden kann sowieso ungültig sein.

— TLJ
quelle

1

Aus der Korrelation ist es schwierig zu schließen, ob die Tabelle und die Breite tatsächlich korreliert sind. Ein Koeffizient nahe + 1 / -1 würde sagen, dass sie kollinear sind. Dies hängt auch von der Stichprobengröße ab. Wenn Sie mehr Daten haben, bestätigen Sie diese.

Das Standardverfahren beim Umgang mit kollinearen Variablen besteht darin, eine davon zu eliminieren ... weil man weiß, dass eine die andere bestimmen würde.

— Subspacian
quelle

1

Ich bin mir nicht sicher, ob ich damit einverstanden bin. Die Korrelation ist r = -. 41, was eine vernünftige Größe für eine Korrelation ist, würde ich denken. Angesichts des wahrscheinlichen N (basierend auf einem Blick auf die Handlung) würde ich erwarten, dass das r hoch "signifikant" ist. Ob Table & Depth genug korreliert sind, um als "kollinear" bezeichnet zu werden, wird eine Frage der Definition sein (obwohl ich es auch nicht als problematische Kollinearität bezeichnen würde). Schließlich wäre ich vorsichtig, wenn ich nur eine der Variablen eliminieren würde, es sei denn, das r wäre sehr nahe an | 1 | (zB ~ .99) - Ich kann nicht sagen, ob du das meinst.

— Gung - Reinstate Monica

1

Was lässt Sie denken, dass Tabelle und Tiefe Kollinearität in Ihrem Modell verursachen? Allein anhand der Korrelationsmatrix ist schwer zu erkennen, dass diese beiden Variablen Kollinearitätsprobleme verursachen. Was sagt Ihnen ein gemeinsamer F-Test über den Beitrag beider Variablen zu Ihrem Modell? Wie odd_cat erwähnte, ist Pearson möglicherweise nicht das beste Maß für die Korrelation, wenn die Beziehung nicht linear ist (möglicherweise ein rangbasiertes Maß?). VIF und Toleranz können dabei helfen, den Grad Ihrer Kollinearität zu quantifizieren.

Ich denke, Ihr Ansatz, ihr Verhältnis zu verwenden, ist angemessen (wenn auch nicht als Lösung für die Kollinearität). Als ich die Figur sah, dachte ich sofort an eine übliche Maßnahme in der Gesundheitsforschung, das Verhältnis von Taille zu Hüfte. In diesem Fall ähnelt es jedoch eher dem BMI (Gewicht / Größe ^ 2). Wenn das Verhältnis in Ihrem Publikum leicht zu interpretieren und intuitiv ist, sehe ich keinen Grund, es nicht zu verwenden. Möglicherweise können Sie jedoch beide Variablen in Ihrem Modell verwenden, es sei denn, es gibt eindeutige Hinweise auf Kollinearität.

— Thomas Speidel
quelle