Ich habe ein Problem mit multipler Regression, das ich mit einer einfachen multiplen Regression zu lösen versucht habe:
model1 <- lm(Y ~ X1 + X2 + X3 + X4 + X5, data=data)
Dies scheint die 85% der Varianz (gemäß R-Quadrat) zu erklären, die ziemlich gut zu sein scheint.
Was mich jedoch beunruhigt, ist die seltsam aussehende Handlung Residuals vs Fitted, siehe unten:

Ich vermute, der Grund, warum wir solche parallelen Linien haben, ist, dass der Y-Wert nur 10 eindeutige Werte hat, die ungefähr 160 X-Werten entsprechen.
Vielleicht sollte ich in diesem Fall eine andere Art der Regression verwenden?
Bearbeiten : Ich habe im folgenden Artikel ein ähnliches Verhalten gesehen. Beachten Sie, dass es sich nur um ein einseitiges Papier handelt. Wenn Sie eine Vorschau anzeigen, können Sie alles lesen. Ich denke, es erklärt ziemlich gut, warum ich dieses Verhalten beobachte, aber ich bin mir immer noch nicht sicher, ob eine andere Regression hier besser funktionieren würde?
Edit2: Das beste Beispiel für unseren Fall ist die Änderung der Zinssätze. Die FED kündigt alle paar Monate einen neuen Zinssatz an (wir wissen nicht wann und wie oft). In der Zwischenzeit erfassen wir täglich unsere unabhängigen Variablen (wie tägliche Inflationsrate, Börsendaten usw.). Infolgedessen werden wir eine Situation haben, in der wir viele Messungen für einen Zinssatz durchführen können.
RPaket, das dies tut, istordinal, aber es gibt auch andere