Was sind die Annahmen der Gratregression und wie können sie getestet werden?

Betrachten Sie das Standardmodell für die multiple Regression wobei gilt.

Y. = X β + ε

$Y=X\beta+\varepsilon$

ε \sim N (0, σ^{2} I_{n})

$\varepsilon \sim \mathcal N(0, \sigma^2I_n)$

Angenommen, wir führen eine Gratregression durch, indem wir allen Elementen der Diagonale von den gleichen kleinen Betrag hinzufügen : $X$

β_{r ich d G e} = [X^{'} X + k ich]^{- 1} X^{'} Y.

$\beta_\mathrm{ridge}=[X'X+kI]^{-1}X'Y$

Es gibt einige Werte von , für den der Grat Koeffizient weniger mittlere quadratische Fehler als die von OLS erhalten, obwohl ein vorgespannter Schätzer von ist . In der Praxis wird durch Kreuzvalidierung erhalten. $k$ $\beta_\mathrm{ridge}$ $\beta$ $k$

Hier ist meine Frage: Welche Annahmen liegen dem Firstmodell zugrunde? Konkreter zu sein,

Sind alle Annahmen des gewöhnlichen kleinsten Quadrats (OLS) mit Gratregression gültig?
Wenn ja, wie testen wir Homoskedastizität und fehlende Autokorrelation mit einem voreingenommenen Schätzer von ? $\beta$
Gibt es Arbeiten zum Testen anderer OLS-Annahmen (Homoskedastizität und fehlende Autokorrelation) unter Kammregression?

regression assumptions ridge-regression

— Akyves
quelle

Bitte beachten Sie, dass OLS nicht davon ausgeht, dass Prädiktoren unabhängig sind. Es sind nur bestimmte Lösungsmethoden oder Formeln, die solche Annahmen treffen. Wichtig ist, wie Sie den Ridge-Regressionsmultiplikator auswählen, nicht, dass die Schätzung von

verzerrt sein könnte. Wenn dieser Multiplikator ausgewählt wird, indem eine Gratspur betrachtet wird, haben Sie keine Möglichkeit, Unsicherheiten zu quantifizieren, was die meisten formalen Diagnosetests in der linearen Regressionstheorie in Frage stellt. Dies führt mich zu der Frage, was Sie eigentlich mit "Gratregression" meinen: Wie genau schätzen Sie seinen Parameter ein?

β

$\beta$

— Whuber

Vielleicht bin ich falsch, aber das Standardmodell der multiplen Regression unter Berücksichtigung

. Und wenn

nicht den vollen Rang hat, führt dies zu einer nicht invertierbaren Matrix

, insbesondere im Falle einer hohen Dimension von X. Ich habe meine Frage bearbeitet. Vielen Dank.

β_{O L S} = (X^{'} X)^{- 1} X^{'} Y

$\beta_{OLS}=(X'X)^{-1}X'Y$

X

$X$

X^{'} X

$X'X$

— Akyves

Lineare Regression kann perfekt mit Kollinearität umgehen, solange sie nicht "zu groß" ist.

— jona

Dies ist kein Modell für multiple Regression: Es ist nur eine Möglichkeit, die Schätzung der kleinsten Quadrate auszudrücken. Wenn

nicht invertierbar ist, haben die normalen Gleichungen immer noch Lösungen und (normalerweise) hat das Modell immer noch eine eindeutige Anpassung , was bedeutet, dass es eindeutige Vorhersagen macht.

X^{'} X

$X^\prime X$

— whuber

Verwandte: Modellannahmen der partiellen Regression der kleinsten Quadrate (PLS) .

— Amöbe sagt Reinstate Monica

Antworten:

Was ist eine Annahme eines statistischen Verfahrens?

Ich bin kein Statistiker und deshalb mag dies falsch sein, aber ich denke, das Wort "Annahme" wird oft recht informell verwendet und kann sich auf verschiedene Dinge beziehen. Für mich ist eine "Annahme" genau genommen etwas, das nur ein theoretisches Ergebnis (Theorem) haben kann.

Wenn von Annahmen der linearen Regression die Rede ist ( siehe hier für eine eingehende Diskussion), beziehen sie sich normalerweise auf das Gauß-Markov-Theorem , das besagt, dass die OLS-Schätzung bei Annahmen von nicht korrelierten Fehlern mit gleicher Varianz und Mittelwert Null BLAU ist , dh ist unvoreingenommen und hat minimale Varianz. Außerhalb des Kontextes des Gauß-Markov-Theorems ist mir nicht klar, was eine "Regressionsannahme" überhaupt bedeuten würde.

In ähnlicher Weise beziehen sich Annahmen eines beispielsweise aus einer Stichprobe bestehenden t-Tests auf die Annahmen, unter denen die Statistik verteilt ist und daher die Folgerung gültig ist. Es wird kein "Theorem" genannt, aber es ist ein klares mathematisches Ergebnis: Wenn Stichproben normalverteilt sind, folgt die Statistik der Verteilung des Schülers mit Freiheitsgraden. $t$ $t$ $n$ $t$ $t$ $n-1$

Annahmen der bestraften Regressionstechniken

Betrachten Sie nun eine regulierte Regressionstechnik: Ridge-Regression, Lasso, elastisches Netz, Regression der Hauptkomponenten, partielle Regression der kleinsten Quadrate usw. usw. Der Sinn dieser Methoden besteht darin, eine voreingenommene Schätzung der Regressionsparameter vorzunehmen und die erwarteten zu reduzieren Verlust durch Ausnutzung des Bias-Varianz-Kompromisses.

Alle diese Methoden enthalten einen oder mehrere Regularisierungsparameter, und keiner von ihnen hat eine bestimmte Regel für die Auswahl der Werte dieser Parameter. Der optimale Wert wird normalerweise über eine Art Kreuzvalidierungsverfahren ermittelt. Es gibt jedoch verschiedene Methoden zur Kreuzvalidierung, die zu etwas unterschiedlichen Ergebnissen führen können. Darüber hinaus ist es nicht ungewöhnlich, neben der Kreuzvalidierung einige zusätzliche Faustregeln aufzurufen. Als Ergebnis der tatsächliche Ausgang ist von jedem dieser bestrafen Regressionsverfahren nicht wirklich vollständig durch das Verfahren festgelegt, kann aber auf dem Analytiker Entscheidungen abhängen. $\hat \beta$

$\hat \beta$

Aber was ist mit dem mathematischen Ergebnis, dass die Gratregression immer besser ist als OLS?

$\lambda$ $\beta$ $\lambda$

Dieses Ergebnis erfordert eigentlich keine Annahmen und ist immer wahr, aber es wäre seltsam zu behaupten, dass die Kammregression keine Annahmen enthält.

Okay, aber woher weiß ich, ob ich eine Kammregression anwenden kann oder nicht?

Ich würde sagen, auch wenn wir nicht über Annahmen sprechen können, können wir über Faustregeln sprechen . Es ist allgemein bekannt, dass die Kammregression bei multipler Regression mit korrelierten Prädiktoren am nützlichsten ist. Es ist allgemein bekannt, dass es die Leistung von OLS oftmals deutlich übertrifft. Es kann sogar bei Heteroskedastizität, korrelierten Fehlern oder was auch immer zu einer Outperformance führen. Die einfache Faustregel besagt also, dass bei multikollinearen Daten eine Kammregression und eine Kreuzvalidierung eine gute Idee sind.

Es gibt wahrscheinlich andere nützliche Faustregeln und Tricks des Handels (wie z. B. was mit groben Ausreißern zu tun ist). Sie sind jedoch keine Annahmen.

$p$ $p$

— Amöbe sagt Reinstate Monica
quelle

In der Situation, in der man Inferenzeigenschaften in Bezug auf eine Prozedur ableitet, werden die Tests selbst beispielsweise unter einigen davon abgeleitet, ob es sich um Eigenschaften eines Hypothesentests einer Regressionssteigung oder um Eigenschaften eines Konfidenzintervalls oder eines Vorhersageintervalls handelt Reihe von Annahmen. Da in vielen Fachgebieten die Verwendung von Regression bei weitem der häufigste Zweck darin besteht, eine Art von Inferenz durchzuführen (in einigen Anwendungsgebieten wird dies aus irgendeinem anderen Grund selten durchgeführt), sind die Annahmen, die für die Inferenzprozedur getroffen würden, natürlich miteinander verbunden with ... ctd

— Glen_b -Reinstate Monica

ctd ... das, woran sie gewöhnt sind. Wenn Sie also einige Annahmen benötigen, um einen t-Test zum Testen eines Regressionskoeffizienten oder für einen partiellen F-Test oder für einen CI für den Mittelwert oder ein Vorhersageintervall abzuleiten ... und die üblichen Inferenzformen alle gleich oder fast gleich Dieselbe Sammlung von Annahmen, dann würden diese vernünftigerweise als Annahmen betrachtet, die mit der Durchführung von Inferenzen unter Verwendung dieses Dings verbunden sind. Wenn man eine Schlussfolgerung mit einer Gratregression

— ziehen will

musste in der Lage sein, diese bestimmte Art von Rückschluss auf die Gratregression abzuleiten (und vermutlich auch zu verwenden).

— Glen_b

R^{2}

$R^2$

Nicht zu spät, hoffe ich danke @amoeba zu sagen. Gute Antwort!

— Akyves

Ich möchte einen Beitrag aus der Sicht der Statistik leisten. Wenn Y ~ N (Xb, Sigma2 * In), dann ist der mittlere quadratische Fehler von b ^

MSE(b^)=E(b^-b).T*(b^-b)=E(|b^-b|^2)=sigma2*trace(inv(X.T*X))

D(|b^-b|^2)=2*sigma4*trace((X.T*X)^(-2))

b^=inv(X.T*X)*X.T*Y

Wenn XT X ungefähr Null ist, ist inv (XT X) sehr groß. Die Parameterschätzung von b ist also nicht stabil und kann das folgende Problem haben.

Ein gewisser absoluter Wert der Parameterschätzung ist sehr groß
b hat entgegengesetztes positives oder negatives Vorzeichen als erwartet.
Durch Hinzufügen oder Entfernen von Variablen oder Beobachtungen werden die Parameterschätzungen drastisch geändert.

Um die ordinale Kleinste-Quadrat-Schätzung von b stabil zu machen, führen wir die Grat-Regression durch Schätzen b^(k)=inv(X.T*X+kI)*X.T*Y.von ein

MSE(b^(k)) < MSE(b^).

Beim maschinellen Lernen wird die Gratregression als L2-Regularisierung bezeichnet und dient der Bekämpfung von Überanpassungsproblemen, die durch viele Funktionen verursacht werden.

— Emma
quelle