Wie kann ich Koeffizientenstandardfehler bei der Verwendung der Kammregression schätzen?

18

Ich verwende die Ridge-Regression für hoch multikollineare Daten. Mit OLS erhalte ich aufgrund der Multikollinearität große Standardfehler bei den Koeffizienten. Ich weiß, dass die Gratregression eine Möglichkeit ist, mit diesem Problem umzugehen, aber in allen Implementierungen der Gratregression, die ich untersucht habe, sind keine Standardfehler für die Koeffizienten angegeben. Ich würde gerne einschätzen, inwieweit die Gratregression hilft, indem ich sehe, wie stark sie die Standardfehler bestimmter Koeffizienten verringert. Gibt es eine Möglichkeit, sie in der Gratregression abzuschätzen?

standard-error ridge-regression

— James Davison
quelle

19

Ich denke, Boostrap wäre die beste Option, um robuste SEs zu erhalten. Dies wurde in einigen angewandten Arbeiten unter Verwendung von Schrumpfungsmethoden durchgeführt, z. B. Analyse von Daten des North American Rheumatoid Arthritis Consortium unter Verwendung eines Ansatzes der bestraften logistischen Regression (BMC Proceedings 2009). Es gibt auch eine schöne Arbeit von Casella über SE-Berechnungen mit dem bestraften Modell, der bestraften Regression, Standardfehlern und Bayesianischen Lassos (Bayesian Analysis 2010 5 (2)). Sie befassen sich jedoch mehr mit der Bestrafung durch Lasso und Elastiknetze .

Ich dachte immer an eine Gratregression, um bessere Vorhersagen als bei Standard-OLS zu erhalten, bei denen das Modell im Allgemeinen nicht parcimonious ist. Für die Variablenauswahl sind die Kriterien Lasso oder Elasticnet besser geeignet, aber dann ist es schwierig, ein Bootstrap-Verfahren anzuwenden (da sich ausgewählte Variablen von einer Stichprobe zur anderen ändern würden und sogar in der inneren fold-Schleife, die zur Optimierung des / parameter); Dies ist bei der Gratregression nicht der Fall, da Sie immer alle Variablen berücksichtigen. $k$ $\ell_1$ $\ell_2$

Ich habe keine Ahnung über R-Pakete, die diese Informationen geben würden. Es scheint nicht im glmnet- Paket verfügbar zu sein (siehe Friedmans Artikel in JSS, Regularisierungspfade für verallgemeinerte lineare Modelle über Koordinatenabstieg ). Jelle Goeman, der das Strafpaket verfasst hat , erörtert diesen Punkt jedoch ebenfalls. Kann das Original-PDF im Web nicht finden, daher zitiere ich einfach seine Worte:

Es ist eine sehr natürliche Frage, nach Standardfehlern von Regressionskoeffizienten oder anderen geschätzten Größen zu fragen. Grundsätzlich können solche Standardfehler einfach berechnet werden, z. B. mit dem Bootstrap.

Dieses Paket bietet sie jedoch absichtlich nicht an. Der Grund dafür ist, dass Standardfehler für stark verzerrte Schätzungen, wie sie sich aus strafbaren Schätzmethoden ergeben, nicht sehr aussagekräftig sind. Die bestrafte Schätzung ist ein Verfahren, das die Varianz von Schätzern durch Einführung einer erheblichen Verzerrung verringert. Die Vorspannung jedes Schätzers ist daher eine Hauptkomponente seines mittleren quadratischen Fehlers, wohingegen seine Varianz nur einen kleinen Teil beitragen kann.

Leider ist es in den meisten Anwendungen der bestraften Regression nicht möglich, eine ausreichend genaue Schätzung der Verzerrung zu erhalten. Bootstrap-basierte Berechnungen können nur eine Einschätzung der Varianz der Schätzungen geben. Zuverlässige Schätzungen des Bias sind nur verfügbar, wenn zuverlässige unverzerrte Schätzungen verfügbar sind, was in Situationen, in denen bestrafte Schätzungen verwendet werden, normalerweise nicht der Fall ist.

Das Melden eines Standardfehlers einer bestraften Schätzung erzählt daher nur einen Teil der Geschichte. Es kann einen irrtümlichen Eindruck von großer Präzision geben, wobei die durch die Vorspannung verursachte Ungenauigkeit völlig ignoriert wird. Es ist sicherlich ein Fehler, Vertrauensaussagen zu machen, die nur auf einer Einschätzung der Varianz der Schätzungen beruhen, wie dies bei Bootstrap-basierten Vertrauensintervallen der Fall ist.

— chl
quelle

2

Vielen Dank für das Angebot. Das Originalzitat finden Sie hier auf Seite 18.

— Francisco Arceo

8

Unter der Annahme, dass der Datenerzeugungsprozess den Standardannahmen hinter OLS folgt, sind die Standardfehler für die Gratregression gegeben durch:

$\sigma^2 (A^T A + \Gamma^T \Gamma)^{-1} A^T A (A^T A + \Gamma^T \Gamma)^{-1}$

Die obige Notation folgt der Wiki-Notation für die Gratregression . Speziell,

$A$ ist die Kovraiatenmatrix,

$\sigma^2$ ist die Fehlervarianz.

$\Gamma$ ist die Tikhonov-Matrix, die für die Gratregression geeignet gewählt wurde.

1

Beachten Sie, dass bei tatsächlichen Berechnungen direkt gebildet werden sollte. den QR oder Singulärwertzergliederung auszubeuten für diese.

A^{T} A

$A^T A$

A

$A$

— JM ist kein Statistiker

1

Die Ridge-Regression ist eine Teilmenge der Tikhonov-Regularisierung (Tk), die die Glättungsfaktoren normalisiert. Der allgemeinere Regularisierungsterm wird in der Gratregression durch , wobei die Identitätsmatrix und ein Lagrange-Multiplikator (dh ein Beschränkungsmultiplikator) ist , auch als Glättung, Schrumpfung, Tichonow-Faktor oder Dämpfungsfaktor bezeichnet . Sowohl die Tk- als auch die Gratregression werden verwendet, um schlecht gestellte Probleme zu lösen $\Gamma ^T\Gamma$ $\text{$\lambda $I}$ $\text{I}$ $\lambda$ Integrale und andere inverse Probleme. "Ein umgekehrtes Problem in der Wissenschaft ist der Prozess, aus einer Reihe von Beobachtungen die kausalen Faktoren zu berechnen, die sie hervorgebracht haben: zum Beispiel die Berechnung eines Bildes in der Computertomographie, die Rekonstruktion einer Quelle in der Akustik oder die Berechnung der Dichte der Erde aus Messungen ihrer Schwerkraft Feld. hier Fehlerausbreitung abgeleitet werden unter Verwendung der in der Anlage zu dieser "SPSS enthält Zusatzcode, der die Standardabweichung aller Parameter und weitere Parameter können verleiht Papier .

Was bei der Tikhonov-Regularisierung im Allgemeinen missverstanden wird, ist, dass das Ausmaß der Glättung sehr wenig mit dem Anpassen der Kurve zu tun hat. Der Glättungsfaktor sollte verwendet werden, um den Fehler der interessierenden Parameter zu minimieren. Sie müssten viel mehr über das spezifische Problem erklären, das Sie lösen möchten, um die Gratregression in einem gültigen inversen Problemkontext richtig anzuwenden, und viele der Artikel zur Auswahl von Glättungsfaktoren und viele der veröffentlichten Verwendungen der Tikhonov-Regularisierung sind ein bisschen heuristisch.

Darüber hinaus ist die Tikhonov-Regularisierung nur eine von vielen inversen Problembehandlungen. Folgen Sie dem Link zum Journal Inverse Problems .

— Carl
quelle