Sind Bootstrapping-Standardfehler und Konfidenzintervalle in Regressionen angemessen, in denen die Annahme der Homoskedastizität verletzt wird?

Wenn in Standard-OLS-Regressionen zwei Annahmen verletzt werden (Normalverteilung von Fehlern, Homoskedastizität), sind Bootstrapping-Standardfehler und Konfidenzintervalle eine geeignete Alternative, um zu aussagekräftigen Ergebnissen hinsichtlich der Signifikanz von Regressorkoeffizienten zu gelangen?

Funktionieren Signifikanztests mit Bootstrap-Standardfehlern und Konfidenzintervallen immer noch mit Heteroskedastizität?

Wenn ja, welche Konfidenzintervalle können in diesem Szenario verwendet werden (Perzentil, BC, BCA)?

Wenn Bootstrapping in diesem Szenario angemessen ist, welche einschlägige Literatur muss gelesen und zitiert werden, um zu dieser Schlussfolgerung zu gelangen? Jeder Hinweis wäre sehr dankbar!

— David
quelle

Wenn es eine solche Verletzung gibt, denke ich nicht, dass Bootstrapping sie heilt. Versuchen Sie stattdessen, die Daten zu transformieren (zu protokollieren), um der Normalität näher zu kommen, und verwenden Sie einen robusten Standardfehler, z. B. aus dem Sandwich-Paket in R.

— B_Miner

Der Bootstrap funktioniert

— einwandfrei,

Es gibt mindestens drei (möglicherweise mehrere) Ansätze, um den Bootstrap für die lineare Regression mit unabhängigen, aber nicht identisch verteilten Daten durchzuführen. (Wenn Sie andere Verstöße gegen die "Standard" -Annahmen haben, z. B. aufgrund von Autokorrelationen mit Zeitreihendaten oder Clustering aufgrund von Stichprobenentwürfen, wird es noch komplizierter.)

Sie können Beobachtung als Ganzes neu berechnen, das heißt, eine Probe mit dem Ersatz der aus dem ursprünglichen Daten . Dies ist asymptotisch äquivalent zur Durchführung der $(y_j^*, {\bf x}_j^*)$ $\{ (y_i, {\bf x}_i) \}$ Huber-White-Heteroskedastizitätskorrektur .
Sie können Ihr Modell passen, erhalten die Residuen und resample unabhängig und $e_i = y_i - {\bf x}_i ' \hat\beta$ ${\bf x}_j^*$ $e_j^*$ mit dem Ersatz von ihren jeweiligen empirischen Verteilungen, aber das bricht die Heteroskedastie Muster, wenn es Ich bezweifle, dass dieser Bootstrap konsistent ist.
Sie können einen wilden Bootstrap ausführen, in dem Sie das Vorzeichen des Residuums neu abtasten, das für den bedingten zweiten Moment (und mit einigen zusätzlichen Optimierungen auch für den bedingten dritten Moment) bestimmt. Dies wäre das Verfahren, das ich empfehlen würde (vorausgesetzt, Sie können es verstehen und es für andere verteidigen, wenn Sie gefragt werden: "Was haben Sie getan, um die Heteroskedastizität zu kontrollieren? Woher wissen Sie, dass es funktioniert?").

Die ultimative Referenz ist Wu (1986) , aber Annals sind nicht genau die Bilderbuchlesung.

AKTUALISIERUNG basierend auf den Follow-up-Fragen des OP, die in den Kommentaren gestellt wurden:

Die Anzahl der Wiederholungen schien mir groß zu sein; Die einzige gute Diskussion über diesen Bootstrap-Parameter, die mir bekannt ist, ist in Efron & Tibshiranis Intro to Bootstrap-Buch .

Ich glaube, dass im Allgemeinen ähnliche Korrekturen für das Fehlen von Verteilungsannahmen mit Huber / White-Standardfehlern erzielt werden können. $M$ ) zum Vergleich zwischen den Bootstrap- und Heteroskedastizitätskorrekturen.

— StasK
quelle

Vielen dank für Deine Hilfe! Bitte gestatten Sie mir eine weitere Frage: Die einzigen Annahmen, gegen die ich verstoße, sind die Normalverteilung der Fehler und die Annahmen zur Homoskedastizität. Außerdem interessiert mich nur, ob meine Regressionskoeffizienten sig sind. in die erwartete Richtung oder nein. Die Stärke des Effekts ist nicht wichtig. Ich denke, was ich bisher getan habe, ist Ihre Option 1. Ich habe Standardfehler gebootet und zusätzlich gebootete Konfidenzintervalle generiert. Ich habe das mit Stata gemacht: vce (bootstrap, reps (2500) bca), estat bootstrap. Heilt das meine Annahme-Verstöße?

— David

Ich diagnostiziere die Daten nicht nur anhand Ihrer Syntax, und niemand wird es tun. Wie groß ist Ihr Datensatz? reps(2500)ist wahrscheinlich ein Overkill, zumindest für die Standardfehler; Ich denke, reps(500)ist für die meisten praktischen Zwecke in Ordnung. Efron & Tibshiranis Intro-Bootstrap-Buch enthält einen Abschnitt über die Anzahl der Replikate. Sie haben auch ein ganzes Kapitel über Regression, so dass Sie sich vielleicht ein weiteres gutes Nachschlagewerk ansehen können.

— StasK

Danke für deine schnelle Antwort. Der Datensatz ist ~ 250. Abgesehen von den Fragen zur Anzahl der Replikationen (danke für den Link!) Stimmen Sie zu, dass Bootstrap-Standardfehler (durch Resampling von Beobachtungen als Ganzes) und / oder Bootstrap-Konfidenzintervalle (z. B. Perzentil oder Bias korrigiert) korrigiert würden ein geeigneter Weg, um die Signifikanz (oder das Fehlen davon) eines Regressionskoeffizienten angesichts der Verletzung der Homoskedastizität und der Annahme einer Normalverteilung von Fehlern zu bestimmen? Vielen Dank für Ihren Beitrag!

— David

Ja, ich würde sagen, das ist besser. Wenn Sie jedoch Stata verwenden, könnten Sie mit der robustOption Ihrer Regression eine sehr ähnliche Antwort erhalten . est storebeide Ergebnisse und est tab, sesie nebeneinander zu vergleichen.

— StasK

Danke, StasK. Ich habe auch den folgenden Kommentar gesehen, den Sie an einer anderen Stelle auf dieser Site gemacht haben: "Einfacher Bootstrap mit Resampling - White's Heteroskedasticity Robust Estimator". Im Zusammenhang mit meinen Fragen wie oben beschrieben: Gibt es veröffentlichte Zeitschriftenartikel, die diesen Punkt machen?

— David