Das graue Band ist ein Konfidenzband für die Regressionsgerade. Ich kenne ggplot2 nicht gut genug, um sicher zu sein, ob es sich um ein 1 SE-Konfidenzband oder ein 95% -Konfidenzband handelt, aber ich glaube, es ist das erstere ( Edit: offensichtlich ist es ein 95% -KI ). Ein Konfidenzband repräsentiert die Unsicherheit über Ihre Regressionsgerade. In gewissem Sinne könnte man denken, dass die wahre Regressionsgerade so hoch wie die Oberseite der Band ist, so niedrig wie die Unterseite, oder dass sie innerhalb der Band anders wackelt. (Beachten Sie, dass diese Erklärung intuitiv sein soll und technisch nicht korrekt ist, die vollständige Erklärung jedoch für die meisten Menschen schwer zu befolgen ist.)
Sie sollten das Konfidenzband verwenden, um die Regressionsgerade besser zu verstehen bzw. darüber nachzudenken. Sie sollten es nicht verwenden, um über die Rohdatenpunkte nachzudenken. Denken Sie daran, dass die Regressionsgerade den Mittelwert von an jedem Punkt in X darstellt (wenn Sie dies genauer verstehen müssen, können Sie hier meine Antwort lesen: Was ist die Intuition hinter bedingten Gaußschen Verteilungen? ). Andererseits erwarten Sie sicherlich nicht, dass jeder beobachtete Datenpunkt dem bedingten Mittelwert entspricht. Mit anderen Worten, Sie sollten das Konfidenzband nicht verwenden, um zu beurteilen, ob ein Datenpunkt ein Ausreißer ist. YX
( Bearbeiten: Diese Anmerkung ist peripher zur Hauptfrage, versucht jedoch, einen Punkt für das OP zu klären. )
Eine polynomielle Regression ist keine nichtlineare Regression, obwohl das, was Sie erhalten, nicht wie eine gerade Linie aussieht. Der Begriff "linear" hat in einem mathematischen Kontext eine ganz bestimmte Bedeutung, insbesondere, dass die von Ihnen geschätzten Parameter - die Betas - allesamt Koeffizienten sind. Eine polynomielle Regression bedeutet nur, dass Ihre Kovariaten , X 2 , X 3 usw. sind, dh, sie haben eine nichtlineare Beziehung zueinander, aber Ihre Betas sind immer noch Koeffizienten, daher ist es immer noch ein lineares Modell. Wenn Ihre Betas Exponenten wären, dann hätten Sie ein nichtlineares Modell. XX2X3
In der Summe hat es nichts damit zu tun, ob eine Linie gerade aussieht oder nicht, ob ein Modell linear ist oder nicht. Wenn Sie ein Polynommodell anpassen (z. B. mit und X 2 ), „weiß“ das Modell nicht, dass z. B. X 2 eigentlich nur das Quadrat von X 1 ist . Es "denkt", dass dies nur zwei Variablen sind (obwohl es erkennen kann, dass es eine gewisse Multikollinearität gibt). Somit ist in Wahrheit des Einpassen eine (gerade / flach) Regressionsebene in einem dreidimensionalen Raum statt einer (gekrümmten) Regressionslinie in einem zweidimensionalen Raum. Dies ist für uns nicht nützlich, um darüber nachzudenken, und in der Tat äußerst schwer zu erkennen, da X 2XX2X2X1X2ist eine einwandfreie Funktion von . Infolgedessen machen wir uns keine Gedanken darüber, und unsere Diagramme sind wirklich zweidimensionale Projektionen auf die ( X , Y ) -Ebene. Trotzdem ist die Linie an geeigneter Stelle in gewissem Sinne geradlinig. X(X, Y)
Aus mathematischer Sicht ist ein Modell linear, wenn die Parameter, die Sie schätzen möchten, Koeffizienten sind. Betrachten Sie zur weiteren Verdeutlichung den Vergleich zwischen dem linearen Standardregressionsmodell (OLS) und einem einfachen logistischen Regressionsmodell, das in zwei verschiedenen Formen dargestellt wird:
ln ( π ( Y )
Y=β0+β1X+ε
ln(π(Y)1−π(Y))=β0+β1X
π(Y)=exp(β0+β1X)1+exp(β0+β1X)
βββUnterschied zwischen logit- und probit-Modellen .)