Statistische Inferenz unter falscher Angabe

Die klassische Behandlung der statistischen Inferenz beruht auf der Annahme, dass eine korrekt spezifizierte Statistik verwendet wird. Das heißt, die Verteilung $\mathbb{P}^*(Y)$ , die die beobachteten Daten $y$ ist Teil des statistischen Modells $\mathcal{M}$ :

P^{*} (Y) \in M = {P_{θ} (Y) : θ \in Θ}

$\mathbb{P}^*(Y) \in \mathcal{M}=\{\mathbb{P}_\theta(Y) :\theta \in \Theta\}$ In den meisten Situationen ist dies jedoch nicht möglich davon ausgehen, dass dies wirklich wahr ist. Ich frage mich, was mit statistischen Inferenzverfahren passiert, wenn wir die richtig angegebene Annahme fallen lassen.

P_{θ_{1}} = \arg min_{P_{θ} \in M} K L (P^{*}, P_{θ})

$\mathbb{P}_{\theta_1}=\arg \min_{\mathbb{P}_\theta \in \mathcal{M}} KL(\mathbb{P}^*,\mathbb{P}_\theta)$

P^{*}

$\mathbb{P}^*$

Was passiert mit Schätzern für Konfidenzsätze? Fassen wir die Schätzer der Konfidenzsätze zusammen. Sei ein , wobei der Abtastraum und die über den Parameterraum . Was wir wissen möchten, ist die Wahrscheinlichkeit des Ereignisses, dass die von erzeugten Mengen die wahre Verteilung , dh $\delta:\Omega_Y \rightarrow 2^\Theta$ $\Omega_Y$ $2^\Theta$ $\Theta$ $\delta$ $\mathbb{P}^*$

P^{*} (P^{*} \in {P_{θ} : θ \in δ (Y)}) := A .

$\mathbb{P}^*(\mathbb{P}^* \in \{P_\theta : \theta \in \delta(Y)\}):=A.$

Allerdings kennen wir natürlich die wahre Distribution $\mathbb{P}^*$ . Die korrekt angegebene Annahme besagt, dass $\mathbb{P}^* \in \mathcal{M}$ . Wir wissen jedoch immer noch nicht, um welche Verteilung des Modells es sich handelt. Aber

inf_{θ \in Θ} P_{θ} (θ \in δ (Y)) := B

$\inf_{\theta \in \Theta} \mathbb{P}_\theta(\theta \in \delta(Y)):=B$ ist eine untere Schranke für die Wahrscheinlichkeit ,

A

$A$ . Gleichung

B

$B$ ist die klassische Definition des Konfidenzniveaus für einen Konfidenzmengenschätzer.

Wenn wir die korrekt spezifizierte Annahme fallen lassen, ist $B$ nicht unbedingt eine Untergrenze für $A$ , den Begriff, an dem wir tatsächlich interessiert sind. In der Tat, wenn wir annehmen, dass das Modell falsch spezifiziert ist, was wahrscheinlich für die realistischsten Situationen der Fall ist, ist $A$ 0, da die wahre Verteilung $P^*$ nicht im statistischen Modell $\mathcal{M}$ .

Aus einer anderen Perspektive könnte man darüber nachdenken, worauf sich $B$ bezieht, wenn das Modell falsch spezifiziert ist. Dies ist eine spezifischere Frage. Hat $B$ noch eine Bedeutung, wenn das Modell falsch spezifiziert ist? Wenn nein, warum beschäftigen wir uns überhaupt mit parametrischen Statistiken?

Ich denke, White 1982 enthält einige Ergebnisse zu diesen Themen. Leider kann ich aufgrund meines fehlenden mathematischen Hintergrunds nicht viel verstehen, was dort geschrieben steht.

— Julian Karls
quelle

Ich habe diese Frage + Antwort gefunden stats.stackexchange.com/questions/149773/… . Es ist sehr ähnlich. Das Lesen dieser Bücher würde wahrscheinlich zu einer Antwort auf diese Frage führen. Ich denke jedoch immer noch, dass eine Zusammenfassung von jemandem, der dies bereits getan hat, sehr hilfreich wäre.

— Julian Karls

Es ist eine Schande, dass diese Frage kein größeres Interesse geweckt hat - der Link von Julian hat ein schönes Material, aber ich wäre interessiert, weitere Gedanken zu diesem Thema zu hören.

— Florian Hartig

In der Regel wird die Verteilung der Teststatistik unter der Annahme berechnet, dass das statistische Modell korrekt ist. Wenn der p - Wert niedrig genug ist, wird gefolgert, dass dies entweder zufällig ist oder dass die Null falsch ist. Wenn das Modell jedoch falsch spezifiziert ist, ist dies auch eine Schlussfolgerung, die logisch gezogen werden könnte. Dasselbe gilt für alle anderen Schlussfolgerungen: Die Tatsache, dass das Modell falsch angegeben ist, bietet eine alternative Schlussfolgerung. So denke ich, wenn ich Spanos Arbeit gelesen habe.

— Toby

Grundsätzlich sind alle Modelle falsch. Es hilft, die Fehlspezifikation quantitativ zu entwickeln. Für ein Bild ist eine falsche Angabe eine falsche Registrierung. Zum Zählen von Fehlern (z. B. durch radioaktiven Zerfall) für eine ausreichende Anzahl von Zählungen wird der Fehler auf Poisson verteilt. In diesem Fall ist eine Fehlausrichtung einer Zeitreihe der y-Achsenfehler der Quadratwurzel des Bildes, und das Rauschen befindet sich in denselben Einheiten. Beispiel hier .

— Carl

Antworten:

Sei die beobachteten Daten, von denen angenommen wird, dass sie eine Realisierung einer Folge von iid Zufallsvariablen mit gemeinsamer Wahrscheinlichkeitsdichtefunktion die in Bezug auf ein Sigma-Finite-Maß definiert ist . Die Dichte wird als Dichte des (DGP) bezeichnet. $y_1, \ldots, y_n$ $Y_1, \ldots, Y_n$ $p_e$ $\nu$ $p_e$

Im Wahrscheinlichkeitsmodell des Forschers ${\cal M} \equiv \{ p(y ; \theta) : \theta \in \Theta \}$ eine Sammlung von Wahrscheinlichkeitsdichtefunktionen, die durch einen Parametervektor indiziert werden . Angenommen, jede Dichte in ist in Bezug auf ein gemeinsames Sigma-Finite-Maß (z. B. könnte jede Dichte eine Wahrscheinlichkeitsmassenfunktion mit demselben Abtastraum ). $\theta$ ${\cal M}$ $\nu$ $S$

Es ist wichtig , um die Dichte zu halten $p_e$ , die die Daten tatsächlich konzeptionell verschieden von dem Wahrscheinlichkeitsmodell der Daten erzeugt. Bei klassischen statistischen Verfahren wird eine sorgfältige Trennung dieser Konzepte entweder ignoriert, nicht vorgenommen, oder es wird von Anfang an davon ausgegangen, dass das Wahrscheinlichkeitsmodell korrekt angegeben ist.

Ein korrekt angegebenes Modell ${\cal M}$ bezüglich $p_e$ als Modell definiert , in dem $p_e \in {\cal M}$ $\nu$ -Fast überall. Wenn ${\cal M}$ bezüglich fehlspezifiziert ist $p_e$ Dies entspricht dem Fall , in dem das Wahrscheinlichkeitsmodell nicht korrekt angegeben wird.

Wenn das Wahrscheinlichkeitsmodell korrekt spezifiziert ist, dann gibt es einen $\theta^*$ im Parameterraum $\Theta$ derart , daß $p_e(y) = p(y ; \theta^*)$ $\nu$ -Fast überall. Ein solcher Parametervektor wird "wahrer Parametervektor" genannt. Wenn das Wahrscheinlichkeitsmodell falsch spezifiziert ist, existiert der wahre Parametervektor nicht.

Innerhalb von Whites Modell Fehlspezifikation Rahmen ist das Ziel , die Parameterschätzung zu finden , dass mindernd über einen gewissen kompakten Parameterraum . Es wird angenommen , dass eine eindeutige strengen globalen Minimierungs, , von dem erwarteten Wert von auf im Innern befindet sich $\hat{\theta}_n$ $\hat{\ell}_n({\theta}) \equiv (1/n) \sum_{i=1}^n \log p(y_i ; { \theta})$ $\Theta$ $\theta^*$ $\hat{\ell}_n$ $\Theta$ $\Theta$ . In dem glücklichen Fall , wo das Wahrscheinlichkeitsmodell korrekt spezifiziert ist, $\theta^*$ kann als der „wahren Parameterwert“ interpretiert werden.

In dem speziellen Fall , wo das Wahrscheinlichkeitsmodell korrekt angegeben wird, dann ist die bekannte Maximum - Likelihood - Schätzung. Wenn wir nicht wußte tun haben absolutes Wissen , dass das Wahrscheinlichkeitsmodell korrekt angegeben ist, ist eine Quasi-Maximum - Likelihood - Schätzung genannt und das Ziel ist , zu schätzen . Wenn wir Glück haben und das Wahrscheinlichkeitsmodell richtig spezifiziert ist, reduziert sich die Quasi-Maximum-Likelihood-Schätzung als Sonderfall auf die bekannte Maximum-Likelihood-Schätzung und wird zum wahren Parameterwert. $\hat{\theta}_n$ $\hat{\theta}_n$ $\theta^*$ $\theta^*$

Konsistenz innerhalb Whites (1982) Rahmen entspricht Konvergenz $\theta^*$ , ohne dass $\theta^*$ ist notwendigerweise der wahre Parametervektor. Im Rahmen von White würden wir niemals die Wahrscheinlichkeit des Ereignisses abschätzen, dass die von δ erzeugten Mengen die WAHR-Verteilung P * enthalten. Stattdessen würden wir immer die Wahrscheinlichkeitsverteilung P ** schätzen, die die Wahrscheinlichkeit des Ereignisses ist, dass die von δ erzeugten Mengen die durch die Dichte $p(y ; \theta^*)$ angegebene Verteilung enthalten .

Zum Schluss noch ein paar Anmerkungen zur Fehlspezifikation des Modells. Es ist leicht, Beispiele zu finden, bei denen ein falsch angegebenes Modell äußerst nützlich und sehr aussagekräftig ist. Betrachten Sie beispielsweise ein nichtlineares (oder sogar lineares) Regressionsmodell mit einem Gaußschen Restfehlerterm, dessen Varianz extrem klein ist, der tatsächliche Restfehler in der Umgebung jedoch nicht Gaußsch ist.

Es ist auch leicht, Beispiele zu finden, bei denen ein korrekt angegebenes Modell nicht nützlich und nicht vorhersagbar ist. Betrachten Sie zum Beispiel ein Zufallsmodell für die Vorhersage von Aktienkursen, das den Schlusskurs von morgen als gewichtete Summe aus dem Schlusskurs von heute und etwas Gaußschem Rauschen mit einer extrem großen Varianz vorhersagt.

Der Zweck des Modellfehlspezifikations-Frameworks ist nicht die Gewährleistung der Modellgültigkeit, sondern die Gewährleistung der Zuverlässigkeit. Stellen Sie also sicher, dass der mit Ihren Parameterschätzungen, Konfidenzintervallen, Hypothesentests usw. verknüpfte Stichprobenfehler trotz einer geringen oder einer großen Menge von Modellfehlspezifikationen korrekt geschätzt wird. Die Quasimaximalwahrscheinlichkeitsschätzungen sind asymptotisch normal, zentriert bei $\theta^*$ mit einem Kovarianzmatrixschätzer, der sowohl von der ersten als auch von der zweiten Ableitung der negativen logarithmischen Wahrscheinlichkeitsfunktion abhängt. In dem speziellen Fall, in dem Sie Glück haben und das Modell korrekt ist, reduzieren sich alle Formeln auf den bekannten klassischen statistischen Rahmen, in dem das Ziel darin besteht, die "wahren" Parameterwerte zu schätzen.

— RMG
quelle

Lassen Sie mich zunächst sagen, dass dies eine wirklich faszinierende Frage ist. Ein großes Lob an Julian für die Veröffentlichung. Meines Erachtens besteht das grundlegende Problem bei dieser Art von Analyse darin, dass jede Folgerung einer Teilmenge von eine Folgerung über die eingeschränkte Klasse von Wahrscheinlichkeitsmaßen im Modell ist Modell, unter dem Modell, degeneriert dies zu einer trivialen Frage, ob es eine Fehlspezifikation gibt oder nicht. White umgeht dies, indem er mithilfe einer geeigneten Abstandsmetrik untersucht, wie nahe das Modell an der tatsächlichen Wahrscheinlichkeitsmessung liegt. Dies führt ihn zu dem Wahrscheinlichkeitsmaß , die in der Nähe Proxy für ist in $\Theta$ $\mathcal{M}$ $\mathbb{P}_{\theta_1}$ $\mathbb{P}^*$ . Diese Methode zur Betrachtung von kann erweitert werden, um interessante Größen zu erhalten, die sich auf Ihre Frage nach den Konfidenzsätzen beziehen. $\mathcal{M}$ $\mathbb{P}_{\theta_1}$

$A$ $B$ $A$ $\mathbb{P}^* \notin \mathcal{M}$ $A = 0$

A^{*} \equiv A^{*} (Y) \equiv P^{*} (P_{θ_{1}} \in {P_{θ} | θ \in δ (Y)}) .

$A^* \equiv A^*(Y) \equiv \mathbb{P}^* (\mathbb{P}_{\theta_1} \in \{P_\theta | \theta \in \delta(Y) \} ).$

$\mathbb{P}^*$ $\mathcal{M}$ $\mathbb{P}^* \notin \mathcal{M}$ $\mathbb{P}_{\theta_1} \in \mathcal{M}$

$\mathbb{P}_{\theta_1}$ $\delta$ $A^*$ $n \rightarrow \infty$ . Wenn Sie eine (positive) Untergrenze oder ein (positives) Konvergenzergebnis ermitteln können, können Sie auf diese Weise sicherstellen, dass Sie auch bei einer Fehlspezifikation den nächstgelegenen Proxy mit einer bestimmten Wahrscheinlichkeitsstufe korrekt schätzen. Ich würde empfehlen, dass Sie diese Themen untersuchen, indem Sie die Art der Analyse befolgen, die White durchgeführt hat.

— Setzen Sie Monica wieder ein
quelle