Haftungsausschluss: Dies ist für ein Hausaufgabenprojekt.
Ich versuche, das beste Modell für Diamantpreise zu finden, abhängig von mehreren Variablen, und ich scheine bisher ein ziemlich gutes Modell zu haben. Ich bin jedoch auf zwei Variablen gestoßen, die offensichtlich kollinear sind:
>with(diamonds, cor(data.frame(Table, Depth, Carat.Weight)))
Table Depth Carat.Weight
Table 1.00000000 -0.41035485 0.05237998
Depth -0.41035485 1.00000000 0.01779489
Carat.Weight 0.05237998 0.01779489 1.00000000
Tabelle und Tiefe sind voneinander abhängig, aber ich möchte sie trotzdem in mein Vorhersagemodell aufnehmen. Ich habe einige Untersuchungen an Diamanten durchgeführt und festgestellt, dass Tabelle und Tiefe die Länge über der Oberseite und der Abstand von der oberen zur unteren Spitze eines Diamanten sind. Da diese Preise für Diamanten mit Schönheit in Beziehung zu stehen scheinen und Schönheit mit Proportionen in Beziehung zu stehen scheint, wollte ich ihr Verhältnis einbeziehen, sagen wir , um die Preise vorherzusagen. Ist dies das Standardverfahren für den Umgang mit kollinearen Variablen? Wenn nicht, was ist das?
Edit: Hier ist ein Plot von Depth ~ Table: