Die meisten multiplen Regressionsmodelle enthalten einen konstanten Term (dh den Achsenabschnitt), da dies sicherstellt, dass das Modell unverzerrt ist - dh der Mittelwert der Residuen ist genau Null. (Die Koeffizienten in einem Regressionsmodell werden durch kleinste Quadrate geschätzt, dh durch Minimierung des mittleren quadratischen Fehlers. Der mittlere quadratische Fehler entspricht nun der Varianz der Fehler plus dem Quadrat ihres Mittelwerts: Dies ist eine mathematische Identität. Ändern Der Wert der Konstanten im Modell ändert den Mittelwert der Fehler, beeinflusst jedoch nicht die Varianz. Wenn die Summe der quadratischen Fehler minimiert werden soll, muss die Konstante so gewählt werden, dass der Mittelwert der Fehler Null ist. )
In einem einfachen Regressionsmodell repräsentiert die Konstante den Y-Achsenabschnitt der Regressionslinie in nicht standardisierter Form. In einem multiplen Regressionsmodell stellt die Konstante den Wert dar, der für die abhängige Variable vorhergesagt würde, wenn alle unabhängigen Variablen gleichzeitig gleich Null wären - eine Situation, die möglicherweise physikalisch oder wirtschaftlich nicht sinnvoll ist. Wenn Sie nicht besonders interessiert sind, was passieren würde, wenn alle unabhängigen Variablen gleichzeitig Null wären, belassen Sie die Konstante normalerweise im Modell, unabhängig von ihrer statistischen Signifikanz. Das Vorhandensein der Konstanten stellt nicht nur sicher, dass die In-Sample-Fehler unverzerrt sind, sondern ermöglicht es der Regressionslinie auch, "ihren eigenen Pegel zu suchen" und die beste Anpassung an Daten zu erzielen, die möglicherweise nur lokal linear sind.
In seltenen Fällen möchten Sie jedoch die Konstante aus dem Modell ausschließen. Dies ist eine Modellanpassungsoption im Regressionsverfahren in jedem Softwarepaket und wird manchmal als Regression durch den Ursprung, oder kurz RTO, bezeichnet. Normalerweise wird dies nur durchgeführt, wenn:
- Man kann sich vorstellen, dass die unabhängigen Variablen alle gleichzeitig den Wert Null annehmen. In diesem Fall sollte logischerweise auch die abhängige Variable gleich Null sein. oder aber
- Die Konstante ist mit der Menge der unabhängigen Variablen, die Sie verwenden möchten, redundant.
Ein Beispiel für Fall (1) wäre ein Modell, in dem alle Variablen - abhängig und unabhängig - erste Unterschiede anderer Zeitreihen darstellen. Wenn Sie die erste Differenz von Y auf die erste Differenz von X zurückführen, prognostizieren Sie Änderungen in Y direkt als lineare Funktion von Änderungen in X, ohne auf die aktuellen Ebenen der Variablen Bezug zu nehmen. In diesem Fall kann es vernünftig (wenn auch nicht erforderlich) sein, anzunehmen, dass Y im Durchschnitt unverändert bleiben sollte, wenn X unverändert bleibt, dh, dass Y keinen Aufwärts- oder Abwärtstrend aufweisen sollte, wenn sich nichts an der Zahl ändert Level von X.
Ein Beispiel für Fall (2) wäre eine Situation, in der Sie einen vollständigen Satz saisonaler Indikatorvariablen verwenden möchten - z. B. Sie verwenden vierteljährliche Daten und Sie möchten Variablen Q1, Q2, Q3 und Q4 einschließen, die den Zusatz darstellen saisonale Effekte. Somit könnte Q1 wie folgt aussehen: 1 0 0 0 1 0 0 0 ..., Q2 würde wie folgt aussehen: 0 1 0 0 0 1 0 0 ... und so weiter. Sie können nicht alle vier und eine Konstante im selben Modell verwenden, da Q1 + Q2 + Q3 + Q4 = 1 1 1 1 1 1 1 1. . . . Dies ist das Gleiche wie ein konstanter Begriff. Dh, die fünf Variablen Q1, Q2, Q3, Q4 und CONSTANT sind nicht linear unabhängig: Jede von ihnen kann als lineare Kombination der anderen vier ausgedrückt werden. Eine technische Voraussetzung für die Anpassung eines linearen Regressionsmodells ist, dass die unabhängigen Variablen linear unabhängig sind. Andernfalls können die Koeffizienten der kleinsten Quadrate nicht eindeutig bestimmt werden.
Ein Wort der Warnung: R-Quadrat und F-Statistik haben in einem RTO-Modell nicht die gleiche Bedeutung wie in einem normalen Regressionsmodell und werden nicht von jeder Software auf die gleiche Weise berechnet. In diesem Artikel finden Sie einige Vorsichtsmaßnahmen. Sie sollten nicht versuchen, das R-Quadrat zwischen Modellen zu vergleichen, die einen konstanten Term enthalten oder nicht, obwohl es in Ordnung ist, den Standardfehler der Regression zu vergleichen.
Beachten Sie, dass der Begriff "unabhängig" im Regressionsjargon auf (mindestens) drei verschiedene Arten verwendet wird: Jede einzelne Variable kann als unabhängige Variable bezeichnet werden, wenn sie als Prädiktor und nicht als Prädikat verwendet wird. Eine Gruppe von Variablen ist linear unabhängig, wenn keine von ihnen exakt als lineare Kombination der anderen ausgedrückt werden kann. Ein Variablenpaar wird als statistisch unabhängig bezeichnet, wenn es nicht nur linear unabhängig, sondern auch in Bezug aufeinander völlig uninformativ ist. In einem Regressionsmodell soll Ihre abhängige Variable statistisch von den unabhängigen Variablen abhängig sein, die linear (aber nicht unbedingt statistisch) voneinander unabhängig sein müssen.