Was sind einige illustrative Anwendungen der empirischen Wahrscheinlichkeit?

Ich habe von Owens empirischer Wahrscheinlichkeit gehört, habe sie aber bis vor kurzem nicht beachtet, bis ich auf sie in einem Papier von Interesse gestoßen bin ( Mengersen et al. 2012 ).

Um es zu verstehen, habe ich herausgefunden, dass die Wahrscheinlichkeit der beobachteten Daten als , wobei und .

L = \prod_{i} p_{i} = \prod_{i} P (X_{i} = x) = \prod_{i} P (X_{i} \leq x) - P (X_{i} < x)

$L = \prod_i p_i = \prod_i P(X_i=x) = \prod_i P(X_i \le x) - P(X_i \lt x)$

\sum_{i} p_{i} = 1

$\sum_i p_i = 1$

p_{i} > 0

$p_i > 0$

Es ist mir jedoch nicht gelungen, den mentalen Sprung, der diese Darstellung mit der Möglichkeit verbindet, Rückschlüsse auf Beobachtungen zu ziehen, zu vollziehen. Vielleicht bin ich zu tief in der Überlegung verwurzelt, wie wahrscheinlich es ist, dass ein Modell parametrisiert wird?

Unabhängig davon habe ich in Google Scholar nach einem Artikel gesucht, der empirische Wahrscheinlichkeiten verwendet, die mir helfen würden, das Konzept zu verinnerlichen ... ohne Erfolg. Natürlich gibt es Art Owens Buch zu Empirical Likelihood , aber Google Books lässt all die leckeren Dinge aus und ich bin immer noch im langsamen Prozess, eine Fernleihe zu bekommen.

Kann mich in der Zwischenzeit jemand freundlicherweise auf Papiere und Dokumente hinweisen, die die Prämisse der empirischen Wahrscheinlichkeit und ihre Verwendung klar veranschaulichen? Eine anschauliche Beschreibung von EL selbst wäre ebenfalls willkommen!

— Sameer
quelle

Insbesondere Ökonomen haben sich in EL verliebt. Wenn Sie nach Anwendungen suchen , ist diese Literatur möglicherweise eine der besseren Adressen.

— Kardinal

Antworten:

Ich kann mir keinen besseren Ort als Owens Buch vorstellen, um etwas über die empirische Wahrscheinlichkeit zu lernen.

Ein praktischer Weg, um über nachzudenken ist die Wahrscheinlichkeit für eine multinomiale Verteilung auf den beobachteten Datenpunkten . Die Wahrscheinlichkeit ist also eine Funktion des Wahrscheinlichkeitsvektors , der Parameterraum ist tatsächlich der dimensionale Simplex von Wahrscheinlichkeitsvektoren, und die MLE setzt jeder der Beobachtungen ein Gewicht von auf (vorausgesetzt, dass sie es sind) sind alle verschieden). Die Dimension des Parameterraums nimmt mit der Anzahl der Beobachtungen zu. $L = L(p_1, \ldots, p_n)$ $x_1, \ldots, x_n$ $(p_1, \ldots, p_n)$ $n$ $1/n$

Ein zentraler Punkt ist, dass die empirische Wahrscheinlichkeit eine Methode zur Berechnung von Konfidenzintervallen durch Profilerstellung ohne Angabe eines parametrischen Modells liefert. Wenn der interessierende Parameter der Mittelwert , haben wir für jeden Wahrscheinlichkeitsvektor , dass der Mittelwert und wir können das Profil als Wahrscheinlichkeit berechnen Dann können wir Konfidenzintervalle der Form mit berechnen . Hier ist das empirische Mittel und $\mu$ $p = (p_1, \ldots, p_n)$

μ (p) = \sum_{i = 1}^{n} x_{i} p_{i},

$\mu(p) = \sum_{i=1}^n x_i p_i,$

L_{prof} (μ) = max {L (p) ∣ μ (p) = μ} .

$L_{\text{prof}}(\mu) = \max \{ L(p) \mid \mu(p) = \mu \}.$

I_{r} = {μ ∣ L_{prof} (μ) \geq r L_{prof} (\bar{x})}

$I_r = \{ \mu \mid L_{\text{prof}}(\mu) \geq r L_{\text{prof}}(\bar{x}) \}$

r \in (0, 1)

$r \in (0,1)$

\bar{x}

$\bar{x}$

L_{prof} (\bar{x}) = n^{- n}

$L_{\text{prof}}(\bar{x}) = n^{-n}$ . Die Intervalle sollten vielleicht nur (Profil-) Wahrscheinlichkeitsintervalle genannt werden, da keine Aussage über die Abdeckung im Voraus gemacht wird. Mit abnehmendem die Intervalle (ja, sie sind Intervalle) eine verschachtelte, zunehmende Familie von Konfidenzintervallen. Die asymptotische Theorie oder der Bootstrap können verwendet werden, um zu kalibrieren , um beispielsweise eine Abdeckung von 95% zu erreichen.

I_{r}

$I_r$

r

$r$

I_{r}

$I_r$

r

$r$

Owens Buch behandelt dies im Detail und bietet Erweiterungen für kompliziertere statistische Probleme und andere interessante Parameter.

— NRH
quelle

(+1) Da man keinen Zugang zum Buch hat, kann man immer mit den Originalarbeiten beginnen, um die Grundlagen der Theorie zu erlangen. Wie das Buch sind auch die Papiere ziemlich klar geschrieben.

— Kardinal

Einige Links: ( 1 ) A. Owen (1988), Empirical Likelihood Ratio Confidence Intervals for a Single Functional , Biometrika , vol. 75, Nr. 2, S. 237-249, ( 2 ) A. Owen (1990), Empirical Likelihood Ratio Confidence Regions , Ann. Statist. vol. 18, nein. 1, S. 90-120 ( Open Access ) und ( 3 ) A. Owen (1991) Empirical Likelihood for Linear Models , Ann. Statist. vol. 19, nein. 4, S. 1725-1747 ( offener Zugang ).

— Kardinal

@ Kardinal Fantastisch! Hätte ich mir denken sollen.

— Sameer

@NHS Danke für deine Erklärung! Nur um klar zu sein, ist der gegen die 's? Sie auch erklären, warum ? Sollte es vielleicht ?

L_{p r o f} (μ)

$L_{prof}(\mu)$

a r g m a x

$argmax$

p

$p$

L_{p r o f} (\bar{x}) = n^{n}

$L_{prof}(\bar{x})=n^n$

\prod_{i} n^{- 1} = n^{- n}

$\prod_i n^{-1} = n^{-n}$

— Sameer

@Sameer, der Tippfehler ist jetzt korrigiert. Es ist jedoch nicht der Argmax. Dies ist die Profilwahrscheinlichkeit, die durch Maximieren der Wahrscheinlichkeit über alle Parametervektoren mit einem gegebenen Wert von . Übrigens habe ich bei entsprechendem Hochschulzugang eine elektronische Version der einzelnen Kapitel in Owens Buch vom CRC erhalten.

μ

$\mu$

— NRH

In der Ökonometrie gehen viele angewandte Arbeiten von der Annahme aus, dass wobei ein Datenvektor ist, ein bekanntes System von Gleichungen ist und ist ein unbekannter Parameter, . Die Funktion stammt aus einem Wirtschaftsmodell. Das Ziel ist es, zu schätzen .

E [g (X, θ)] = 0

$E[g(X,\theta)] = 0$

X

$X$

g

$g$

q

$q$

θ \in Θ \subseteq R^{p}

$\theta \in \Theta \subseteq \mathbb{R}^p$

q \geq p

$q \geq p$

g

$g$

θ

$\theta$

Der traditionelle Ansatz, in Ökonometrie, für die Schätzung und Inferenz auf verallgemeinerte Momentenmethode verwenden: wobei eine positive definite Gewichtungsmatrix ist und Empirische Wahrscheinlichkeit liefert einen alternativen Schätzer für GMM. Die Idee ist, die Momentbedingung als Einschränkung zu erzwingen, wenn die nichtparametrische Wahrscheinlichkeit maximiert wird. Repariere zuerst ein . Dann lösen Sie vorbehaltlich $\theta$

{\hat{θ}}_{GMM} = {argmin}_{θ \in Θ} {\bar{g}}_{n} (θ)^{'} W {\bar{g}}_{n} (θ)

$\hat{\theta}_\text{GMM} = \text{argmin}_{\theta \in \Theta} \; \bar{g}_n(\theta) 'W \bar{g}_n(\theta)$

W

$W$

{\bar{g}}_{n} (θ) := \frac{1}{n} \sum_{i = 1}^{n} g (X_{i}, θ) .

$\bar{g}_n(\theta) := \frac{1}{n} \sum_{i=1}^n g(X_i,\theta).$

θ

$\theta$

L (θ) = max_{p_{1}, \dots, p_{n}} \prod_{i = 1}^{n} p_{i}

$L(\theta) = \max_{p_1,\ldots,p_n} \; \prod_{i=1}^n p_i$

\sum_{i = 1}^{n} p_{i} = 1, p_{i} \geq 0, \sum_{i = 1}^{n} p_{i} \cdot g (X_{i}, θ) = 0.

$\sum_{i=1}^n p_i=1, \qquad p_i \geq 0, \qquad \sum_{i=1}^n p_i \cdot g(X_i,\theta) = 0.$ Dies ist die innere Schleife '. Dann maximiere über : Es hat sich gezeigt, dass dieser Ansatz bessere Eigenschaften höherer Ordnung als GMM aufweist (siehe Newey und Smith 2004, Econometrica ), was ein Grund ist, warum er GMM vorzuziehen ist. Weitere Referenz finden Sie in den Notizen und Vortrag von Imbens und Wooldridge hier (Vortrag 15).

θ

$\theta$

{\hat{θ}}_{EL} = {argmax}_{θ \in Θ} \log L (θ) .

$\hat{\theta}_\text{EL} = \text{argmax}_{\theta \in \Theta} \; \log L(\theta).$

Es gibt natürlich viele andere Gründe, warum EL in der Ökonometrie Aufmerksamkeit erregt hat, aber ich hoffe, dass dies ein nützlicher Ausgangspunkt ist. Momentgleichheitsmodelle sind in der empirischen Ökonomie weit verbreitet.

— Aelmore
quelle

Vielen Dank, dass Sie eine so klare und gut referenzierte Antwort geschrieben haben. Willkommen in unserer Community!

— Whuber

In der Überlebensanalyse ist die Kaplan-Meier-Kurve der bekannteste nichtparametrische Schätzer der Überlebensfunktion , wobei die Zufallsvariable für die Zeit bis zum Ereignis bezeichnet. Grundsätzlich ist eine Verallgemeinerung der empirischen Verteilungsfunktion, die eine Zensur ermöglicht. Es kann heuristisch abgeleitet werden, wie in den meisten praktischen Lehrbüchern angegeben. Sie kann aber auch formal als Maximum- (empirischer) Wahrscheinlichkeitsschätzer hergeleitet werden. Hier sind weitere Details . $S(t) = Pr(T > t)$ $T$ $\hat{S}$

— Ocram
quelle