Abdeckung der Konfidenzintervalle mit regulierten Schätzungen

Angenommen, ich versuche, eine große Anzahl von Parametern aus hochdimensionalen Daten mit einer Art regulierter Schätzungen abzuschätzen. Der Regularisierer führt einige Verzerrungen in die Schätzungen ein, aber es kann immer noch ein guter Kompromiss sein, da die Verringerung der Varianz dies mehr als wettmachen sollte.

Das Problem tritt auf, wenn ich Konfidenzintervalle abschätzen möchte (z. B. mithilfe von Laplace-Approximation oder Bootstrapping). Insbesondere führt die Verzerrung in meinen Schätzungen zu einer schlechten Abdeckung in meinen Konfidenzintervallen, was es schwierig macht, die frequentistischen Eigenschaften meines Schätzers zu bestimmen.

Ich habe einige Artikel gefunden, in denen dieses Problem diskutiert wurde (z. B. "Asymptotische Konfidenzintervalle bei der Gratregression basierend auf der Edgeworth-Erweiterung" ), aber die Mathematik ist meistens über meinem Kopf. In dem verlinkten Artikel scheinen die Gleichungen 92-93 einen Korrekturfaktor für Schätzungen zu liefern, die durch die Gratregression reguliert wurden, aber ich habe mich gefragt, ob es gute Verfahren gibt, die mit einer Reihe verschiedener Regularisierer funktionieren würden.

Auch eine Korrektur erster Ordnung wäre äußerst hilfreich.

— David J. Harris
quelle

+ 1 aktuelle und wichtige Frage - obwohl ich nicht sicher bin, ob dies derzeit jemand bejahen kann (ich glaube, wir wissen einfach nicht, wie das richtig gemacht werden soll, und wenn ich das wüsste, hätte ich ein paar Annalen von Statistikpapiere aufgereiht). Verwandte Frage: stats.stackexchange.com/questions/91462/… Wir wissen, dass Bootstrapping nur in solchen Situationen funktioniert, aber das hilft nicht.

— Momo

Danke für den Link. Können Sie klarstellen, was Sie in Bezug auf Bootstrapping gemeint haben?

— David J. Harris

Außerdem hoffe ich immer noch, dass jemand Methoden hat, die für nicht-spärliche Regularisierer gut funktionieren. Ich könnte mir vorstellen, dass die L1-Strafe die Sache besonders schwierig macht, weil sich die Schätzungen auf Null stapeln. Danke noch einmal.

— David J. Harris

c

$c$

d

$d$

Die Arbeit von Ruben Dezeure, Peter Bühlmann, Lukas Meier und Nicolai Meinshausen ist meines Wissens die jüngste und umfassendste Darstellung von Schlussfolgerungen in einem hochdimensionalen Umfeld.

— NRH

Antworten:

Es gibt eine aktuelle erschienenen Artikel wird genau auf Ihre Frage eingegangen (wenn Sie, wie ich verstehe, eine Regression Ihrer Daten durchführen möchten), und es werden glücklicherweise leicht zu berechnende Ausdrücke bereitgestellt (Konfidenzintervalle und Hypothesentests für hochdimensionale Regression).

Vielleicht interessiert Sie auch die aktuelle Arbeit von Peter Bühlmann zu diesem Thema. Aber ich glaube, dass Sie mit dem ersten Artikel das bekommen, wonach Sie suchen, und der Inhalt ist leichter zu verdauen (ich bin auch kein Statistiker).

— jpmuc
quelle

+1 Interessantes Papier. Es scheint also, dass es mindestens drei konkurrierende Ideen gibt, wie diese Probleme angegangen werden können, und soweit ich das beurteilen kann, sind sie nicht eng miteinander verbunden. Dann gibt es noch das Unmöglichkeitstheorem von journals.cambridge.org/action/…. Es wird interessant sein zu sehen, wie dies abläuft und was sich als kanonisch herausstellt.

— Momo

Vielen Dank. Dies kann ich möglicherweise nicht implementieren, aber es scheint, als ob die Mathematik für eine Vielzahl von regulierten Schätzungen funktioniert.

— David J. Harris

http://cran.r-project.org/web/packages/hdi/index.html

Ist es das, wonach du suchst?

Description
Computes confidence intervals for the l1-norm of groups of regression parameters in a hierarchical
clustering tree.

— Tagar
quelle

Ich hatte auf etwas gehofft, das für eine Vielzahl von (meist nicht spärlichen) Regularisierern funktionieren würde. Trotzdem danke.

— David J. Harris