Was sind die üblichen Annahmen für eine lineare Regression?
Umfassen sie:
- eine lineare Beziehung zwischen der unabhängigen und abhängigen Variablen
- unabhängige Fehler
- Normalverteilung von Fehlern
- Homoskedastizität
Gibt es noch andere?
Was sind die üblichen Annahmen für eine lineare Regression?
Umfassen sie:
Gibt es noch andere?
Antworten:
Die Antwort hängt stark davon ab, wie Sie vollständig und üblich definieren. Angenommen, wir schreiben das lineare Regressionsmodell folgendermaßen:
Dabei ist der Vektor der Prädiktorvariablen, der interessierende Parameter, die Antwortvariable und die Störung. Eine der möglichen Schätzungen von ist die Schätzung der kleinsten Quadrate:
Jetzt praktisch alle der Lehrbücher befassen sich mit den Annahmen , wenn diese Schätzung wünschenswerte Eigenschaften hat, wie Unbefangenheit, Konsistenz, Effizienz, einige verteilungs Eigenschaften usw.
Jede dieser Eigenschaften erfordert bestimmte Annahmen, die nicht identisch sind. Die bessere Frage wäre also zu fragen, welche Annahmen für die gewünschten Eigenschaften der LS-Schätzung erforderlich sind.
Die oben genannten Eigenschaften erfordern ein Wahrscheinlichkeitsmodell für die Regression. Und hier haben wir die Situation, in der verschiedene Modelle in verschiedenen Anwendungsbereichen verwendet werden.
Der einfache Fall ist, als unabhängige Zufallsvariable zu behandeln , wobei nicht zufällig ist. Ich mag das übliche Wort nicht, aber wir können sagen, dass dies in den meisten angewandten Bereichen der Fall ist (soweit ich weiß).
Hier ist die Liste einiger der wünschenswerten Eigenschaften statistischer Schätzungen:
Existenz
Existenz-Eigenschaft mag seltsam erscheinen, ist aber sehr wichtig. In der Definition von invertieren wir die Matrix
Es ist nicht garantiert, dass die Inverse dieser Matrix für alle möglichen Varianten von . So bekommen wir sofort unsere erste Annahme:
Die Matrix sollte den vollen Rang haben, dh invertierbar sein.
Unvoreingenommenheit
Wir haben
wenn
Wir können es als zweite Annahme nummerieren, aber wir haben es vielleicht direkt angegeben, da dies eine der natürlichen Möglichkeiten ist, eine lineare Beziehung zu definieren.
Beachten Sie, dass bekommen unbiasedness benötigen wir nur , dass für alle und Konstanten sind. Unabhängigkeitseigenschaft ist nicht erforderlich.
Konsistenz
Um die Konsistenzannahmen zu erhalten, müssen wir klarer angeben, was wir mit meinen . Für Sequenzen von Zufallsvariablen gibt es verschiedene Konvergenzmodi: mit ziemlicher Wahrscheinlichkeit in Bezug auf die Verteilung und den ten Momentensinn. Angenommen, wir wollen die Wahrscheinlichkeitskonvergenz ermitteln. Wir können entweder ein Gesetz mit großen Zahlen oder direkt die multivariate Chebyshev-Ungleichung verwenden (unter Verwendung der Tatsache, dass ):
(Diese Variante der Ungleichung ergibt sich direkt aus der Anwendung von Markovs Ungleichung auf und stellt fest, dass .)
Da Konvergenz der Wahrscheinlichkeit bedeutet, dass der linke Term für jedes als verschwinden muss , benötigen wir das als . Dies ist durchaus sinnvoll, da mit mehr Daten die Genauigkeit, mit der wir schätzen, zunehmen sollte.
Wir haben das
Die Unabhängigkeit stellt sicher, dass , daher vereinfacht sich der Ausdruck zu
Nehmen wir nun an, , dann
Wenn wir jetzt zusätzlich verlangen, dass für jedes , erhalten wir sofort
Um die Konsistenz zu erhalten, haben wir angenommen, dass es keine Autokorrelation gibt ( ), die Varianz ist konstant und die wachsen nicht zu stark. Die erste Annahme ist erfüllt, wenn aus unabhängigen Stichproben stammt.
Effizienz
Das klassische Ergebnis ist das Gauß-Markov-Theorem . Die Bedingungen dafür sind genau die ersten beiden Bedingungen für Konsistenz und die Bedingung für Unparteilichkeit.
Verteilungseigenschaften
Wenn normal ist, erhalten wir sofort, dass normal ist, da es eine lineare Kombination von normalen Zufallsvariablen ist. Wenn wir frühere Annahmen von Unabhängigkeit, Unkorreliertheit und konstanter Varianz annehmen, erhalten wir das
wobei .
Wenn nicht normal, sondern unabhängig ist, können wir dank des zentralen Grenzwertsatzes eine ungefähre Verteilung von . Dazu müssen wir
für eine Matrix annehmen
. Die konstante Varianz für asymptotische Normalität ist nicht erforderlich, wenn wir annehmen, dass
Beachten Sie, dass bei konstanter Varianz von , haben wir , dass . Der zentrale Grenzwertsatz ergibt dann folgendes Ergebnis:
Daraus ergibt sich, dass Unabhängigkeit und konstante Varianz für und bestimmte Annahmen für viele nützliche Eigenschaften für die LS-Schätzung .
Die Sache ist, dass diese Annahmen gelockert werden können. Zum Beispiel haben wir gefordert, dass keine Zufallsvariablen sind. Diese Annahme ist in ökonometrischen Anwendungen nicht realisierbar. Wenn wir zufällig sein lassen, können wir ähnliche Ergebnisse , wenn wir bedingte Erwartungen verwenden und die Zufälligkeit von berücksichtigen . Die Annahme der Unabhängigkeit kann ebenfalls gelockert werden. Wir haben bereits gezeigt, dass manchmal nur Unkorrelation erforderlich ist. Auch dies kann weiter gelockert werden und es ist immer noch möglich zu zeigen, dass die LS-Schätzung konsistent und asymptotisch normal ist. Siehe zum Beispiel das Buch von White für mehr Details.
Hier gibt es eine Reihe guter Antworten. Mir fällt auf, dass es eine Annahme gibt, die jedoch nicht (zumindest nicht explizit) angegeben wurde. Insbesondere geht ein Regressionsmodell davon aus, dass (die Werte Ihrer Erklärungs- / Prädiktorvariablen) fest und bekannt ist und dass die gesamte Unsicherheit in der Situation innerhalb der Variablen besteht. Außerdem wird angenommen, dass diese Unsicherheit nur ein Abtastfehler ist .
Hier sind zwei Möglichkeiten, um darüber nachzudenken: Wenn Sie ein erklärendes Modell erstellen (experimentelle Ergebnisse modellieren), wissen Sie genau, wie die Ebenen der unabhängigen Variablen lauten, weil Sie sie manipuliert / verwaltet haben. Darüber hinaus haben Sie festgelegt, welche Ebenen verwendet werden sollen, bevor Sie mit der Datenerfassung begonnen haben. Sie konzipieren also die gesamte Unsicherheit in der Beziehung als in der Antwort vorhanden. Wenn Sie dagegen ein Vorhersagemodell erstellen, ist die Situation zwar anders, Sie behandeln die Prädiktoren jedoch weiterhin so, als wären sie feststehend und bekannt, da Sie das Modell in Zukunft zum Erstellen einer Vorhersage verwenden über den wahrscheinlichen Wert von haben Sie einen Vektor,, und das Modell behandelt diese Werte so, als ob sie korrekt wären. Das heißt, Sie werden sich die Unsicherheit als den unbekannten Wert von vorstellen .
Diese Annahmen können in der Gleichung für ein prototypisches Regressionsmodell gesehen werden: Ein Modell mit Unsicherheit (möglicherweise aufgrund eines Messfehlers) in kann den gleichen haben, aber das Modell Das würde so aussehen: wobei einen zufälligen Messfehler darstellt. (Situationen wie diese haben dazu geführt, dass Fehler in Variablenmodellen bearbeitet wurden . Ein grundlegendes Ergebnis ist, dass bei Messfehlern in der naive
Eine praktische Konsequenz der in der typischen Annahme enthaltenen Asymmetrie besteht darin, dass sich die Regression von auf von der Regression von auf . (Siehe meine Antwort hier: Was ist der Unterschied zwischen der linearen Regression von y mit x und x mit y ?, um diese Tatsache genauer zu diskutieren.)
Die Annahmen des klassischen linearen Regressionsmodells umfassen:
Obwohl die Antworten hier bereits einen guten Überblick über die klassische OLS-Annahme geben, finden Sie hier eine umfassendere Beschreibung der Annahme des klassischen linearen Regressionsmodells:
https://economictheoryblog.com/2015/04/01/ols_assumptions/
Außerdem beschreibt der Artikel die Konsequenzen für den Fall, dass man bestimmte Annahmen verletzt.
Was gibt?!
Eine Antwort ist, dass etwas andere Annahmen verwendet werden können, um die Verwendung einer gewöhnlichen Schätzung der kleinsten Quadrate (OLS) zu rechtfertigen. OLS ist ein Werkzeug wie ein Hammer: Sie können einen Hammer auf Nägeln verwenden, aber Sie können ihn auch auf Stiften verwenden, um Eis zu zerbrechen usw.
Zwei große Kategorien von Annahmen gelten für kleine Stichproben und für solche, die auf großen Stichproben beruhen, damit der zentrale Grenzwertsatz angewendet werden kann.
Kleine Beispielannahmen, wie sie in Hayashi (2000) diskutiert wurden, sind:
Unter (1) - (4) gilt das Gauß-Markov-Theorem , und der gewöhnliche Schätzer der kleinsten Quadrate ist der beste lineare unverzerrte Schätzer.
Die weitere Annahme normaler Fehlerterme ermöglicht das Testen von Hypothesen . Wenn die Fehlerterme bedingt normal sind, ist auch die Verteilung des OLS-Schätzers bedingt normal.
Ein weiterer bemerkenswerter Punkt ist, dass der OLS-Schätzer bei Normalität auch der Maximum-Likelihood-Schätzer ist .
Diese Annahmen können modifiziert / gelockert werden, wenn wir eine ausreichend große Stichprobe haben, so dass wir uns auf das Gesetz der großen Zahlen (für die Konsistenz des OLS-Schätzers) und den zentralen Grenzwertsatz stützen können (so dass die Stichprobenverteilung des OLS-Schätzers gegen konvergiert die Normalverteilung und wir können Hypothesentests durchführen, über p-Werte sprechen etc ...).
Hayashi ist ein Mann aus der Makroökonomie, und seine großen Stichprobenannahmen sind unter Berücksichtigung des Zeitreihenkontexts formuliert:
Möglicherweise treten stärkere Versionen dieser Annahmen auf, z. B. dass die Fehlerausdrücke unabhängig sind.
Mit den richtigen Annahmen für große Stichproben gelangen Sie zu einer asymptotisch normalen Stichprobenverteilung des OLS-Schätzers .
Hayashi, Fumio, 2000, Ökonometrie
Es geht darum, was Sie mit Ihrem Modell machen wollen. Stellen Sie sich vor, Ihre Fehler wären positiv verzerrt / nicht normal. Wenn Sie ein Vorhersageintervall erstellen möchten, können Sie dies besser als mit der t-Verteilung. Wenn Ihre Varianz bei kleineren vorhergesagten Werten kleiner ist, würden Sie wiederum ein zu großes Vorhersageintervall erstellen.
Es ist besser zu verstehen, warum die Annahmen da sind.
Die folgenden Diagramme zeigen, welche Annahmen erforderlich sind, um welche Auswirkungen in den endlichen und asymptotischen Szenarien zu erzielen.
Ich denke, es ist wichtig, nicht nur über die Annahmen nachzudenken, sondern auch über die Auswirkungen dieser Annahmen. Wenn Sie sich zum Beispiel nur für unverzerrte Koeffizienten interessieren, brauchen Sie keine Homoskedastizität.
Das Folgende sind die Annahmen der linearen Regressionsanalyse.
Richtige Spezifikation . Die lineare Funktionsform ist korrekt angegeben.
Strikte Exogenität . Die Fehler in der Regression sollten den bedingten Mittelwert Null haben.
Keine Multikollinearität . Die Regressoren in X müssen alle linear unabhängig sein.
Homoskedastizität, was bedeutet, dass der Fehlerterm bei jeder Beobachtung die gleiche Varianz aufweist.
Keine Autokorrelation : Die Fehler sind zwischen den Beobachtungen nicht korreliert.
Normalität. Es wird manchmal zusätzlich angenommen, dass die Fehler eine Normalverteilung aufweisen, die von den Regressoren abhängig ist.
Iid-Beobachtungen : ist unabhängig von und hat dieselbe Verteilung wie für alle .
Weitere Informationen finden Sie auf dieser Seite .
Es gibt keine einzige Liste von Annahmen, es wird mindestens 2 geben: eine für feste und eine für zufällige Entwurfsmatrix. Außerdem sollten Sie sich die Annahmen für Zeitreihenregressionen ansehen (siehe S.13).
Der Fall , wenn die Designmatrix ist fixiert könnte die häufigste sein und seine Annahmen werden oft als ausgedrückt Gauss-Markov - Theorem . Das feste Design bedeutet, dass Sie die Regressoren wirklich kontrollieren. Zum Beispiel, Sie ein Experiment durchführen und die Parameter wie Temperatur einstellen, Druck usw. Siehe auch S. 13 hier .
Leider kann man in Sozialwissenschaften wie Wirtschaft selten die Parameter des Experiments kontrollieren. In der Regel beobachten Sie , was in der Wirtschaft passiert, zeichnen die Umweltkennzahlen auf und gehen dann auf sie zurück. Es stellt sich heraus, dass es sich um eine ganz andere und schwierigere Situation handelt, die als zufälliges Design bezeichnet wird. In diesem Fall wird das Gauss-Markov Theorem modifiziert auch S.12 siehe hier . Sie können sehen, wie die Bedingungen jetzt als bedingte Wahrscheinlichkeiten ausgedrückt werden , was keine harmlose Änderung ist.
In der Ökonometrie haben die Annahmen Namen:
Beachten Sie, dass ich die Normalität nie erwähnt habe. Es ist keine Standardannahme. Es wird oft in Regressionskursen verwendet, weil es einige Ableitungen erleichtert, aber es ist nicht erforderlich, damit die Regression funktioniert und gute Eigenschaften hat.
Die Annahme der Linearität ist, dass das Modell in den Parametern linear ist. Es ist in Ordnung, ein Regressionsmodell mit Effekten quadratischer oder höherer Ordnung zu haben, solange die Potenzfunktion der unabhängigen Variablen Teil eines linearen additiven Modells ist. Wenn das Modell zu gegebener Zeit keine Terme höherer Ordnung enthält, wird die fehlende Übereinstimmung in der Darstellung der Residuen deutlich. Standardregressionsmodelle enthalten jedoch keine Modelle, in denen die unabhängige Variable auf die Potenz eines Parameters angehoben wird (obwohl es andere Ansätze gibt, die zur Bewertung solcher Modelle verwendet werden können). Solche Modelle enthalten nichtlineare Parameter.
Der Regressionskoeffizient der kleinsten Quadrate bietet eine Möglichkeit, den Trend erster Ordnung in jeder Art von Daten zusammenzufassen. @mpiktas Antwort ist eine gründliche Behandlung der Bedingungen, unter denen die kleinsten Quadrate immer optimaler werden. Ich würde gerne in die andere Richtung gehen und den allgemeinsten Fall zeigen, wenn die kleinsten Quadrate funktionieren. Sehen wir uns die allgemeinste Formulierung der Gleichung der kleinsten Quadrate an:
Es ist nur ein lineares Modell für den bedingten Mittelwert der Antwort.
Hinweis: Ich habe die Fehlerbedingung abgebrochen. Wenn Sie die Unsicherheit von zusammenfassen , müssen Sie sich auf den zentralen Grenzwertsatz berufen. Die allgemeinste Klasse von Kleinste-Quadrate-Schätzern konvergiert gegen Normal, wenn die Lindeberg-Bedingung erfüllt ist : Die Lindeberg-Bedingung für Kleinste-Quadrate erfordert, dass der Bruchteil des größten quadratischen Residuums zur Summe der Summe der quadratischen Residuen auf 0 als gehen muss . Wenn Ihr Design immer größere Reste sammelt, ist das Experiment "tot im Wasser".
Wenn die Lindeberg-Bedingung erfüllt ist, ist der Regressionsparameter ; gut definiert, und der Schätzer ist ein unverzerrter Schätzer mit einer bekannten Näherungsverteilung. Möglicherweise gibt es effizientere Schätzer. In anderen Fällen von Heteroskedastizität oder korrelierten Daten ist normalerweise ein gewichteter Schätzer effizienter . Deshalb würde ich niemals die Verwendung der naiven Methoden befürworten, wenn bessere verfügbar sind. Aber das tun sie oft nicht!