Wie mache ich eine Schätzung, wenn nur zusammenfassende Statistiken verfügbar sind?

Dies ist zum Teil durch die folgende Frage und die darauf folgende Diskussion motiviert .

Angenommen, die iid-Probe wird beobachtet, . Das Ziel ist es, zu schätzen . Aber original probe ist nicht verfügbar. Was wir stattdessen haben, sind einige Statistiken der Stichprobe . Angenommen, ist fest. Wie schätzen wir ? Was wäre in diesem Fall ein Maximum-Likelihood-Schätzer? $X_i\sim F(x,\theta)$ $\theta$ $T_1,...,T_k$ $k$ $\theta$

estimation maximum-likelihood

— mpiktas
quelle

Wenn für eine bekannte Funktion ist, können Sie die Verteilung von aufschreiben und den Maximum-Likelihood-Schätzer auf übliche Weise ableiten. Aber Sie haben nicht genau, was sind die ?

T_{i} = f (X_{i})

$T_i=f(X_i)$

f

$f$

T_{i}

$T_i$

T_{i}

$T_i$

— Stéphane Laurent

Ich interessiere mich für den Fall, dass für bekanntes . Das habe ich gemeint, als ich sagte, dass Beispielstatistiken sind.

T_{i} = f (X_{1}, . . ., X_{n})

$T_i=f(X_1,...,X_n)$

f

$f$

T_{i}

$T_i$

— mpiktas

Was ist der Unterschied zwischen und ?

T_{i}

$T_i$

T_{j}

$T_j$

— Stéphane Laurent

Sorry, das hätte , nicht einer . Wir haben mehrere Funktionen , die das gesamte Beispiel als Argument verwenden.

f_{i}

$f_i$

f

$f$

f_{i}

$f_i$

— mpiktas

Ist das nicht das, wofür die maximale Entropie entworfen wurde?

— Wahrscheinlichkeit

Antworten:

In diesem Fall können Sie eine ABC- Näherung der Wahrscheinlichkeit (und folglich der MLE ) unter der folgenden Annahme / Einschränkung berücksichtigen :

Annahme. Die ursprüngliche Stichprobengröße ist bekannt. $n$

Dies ist keine wilde Annahme, da die Qualität der häufig auftretenden Schätzer in Bezug auf die Konvergenz von der Stichprobengröße abhängt. Daher kann man keine willkürlich guten Schätzer erhalten, ohne die ursprüngliche Stichprobengröße zu kennen.

Die Idee ist es, eine Probe aus der posterioren Verteilung zu erzeugen , und, um eine Annäherung der MLE zu erzeugen , können Sie eine Bedeutung Abtasttechnik wie in Anwendungs [1] oder einen einheitlichen vor auf prüfen , mit Unterstützung auf einem geeignetes eingestellt wie in [2] . $\theta$ $\theta$

Ich werde die Methode in [2] beschreiben. Lassen Sie mich zunächst den ABC-Sampler beschreiben.

ABC Sampler

Sei das Modell, das die Stichprobe erzeugt, wobei ein (zu schätzender) Parameter ist, eine Statistik (eine Funktion der Stichprobe) und die beobachtete Statistik im ABC-Jargon Dies nennt man eine Summenstatistik , sei eine Metrik, eine vorherige Verteilung auf und eine Toleranz. Dann kann der ABC-Zurückweisungsabtaster wie folgt implementiert werden. $f(\cdot\vert\theta)$ $\theta \in \Theta$ $T$ $T_0$ $\rho$ $\pi(\theta)$ $\theta$ $\epsilon>0$

Probe aus . $\theta^*$ $\pi(\cdot)$
Generieren einer Probe der Größe aus dem Modell . $\bf{x}$ $n$ $f(\cdot\vert\theta^*)$
Compute . $T^*=T({\bf x})$
Wenn , akzeptiere als eine Simulation vom hinteren Ende von . $\rho(T^*,T_0)<\epsilon$ $\theta^*$ $\theta$

Dieser Algorithmus erzeugt eine ungefähre Stichprobe aus der posterioren Verteilung von bei . Daher ist das beste Szenario, wenn die Statistik ausreichend ist, aber andere Statistiken verwendet werden können. Für eine detailliertere Beschreibung dieser sehen dieses Papier . $\theta$ $T({\bf x})=T_0$ $T$

Wenn man nun in einem allgemeinen Rahmen eine Uniformvorstufe verwendet, die die MLE in ihrer Unterstützung enthält, stimmt das Maximum a posteriori (MAP) mit dem Maximum Likelihood Estimator (MLE) überein. Wenn Sie daher eine geeignete Uniform im ABC-Sampler als Vorläufer betrachten, können Sie eine ungefähre Stichprobe einer posterioren Verteilung generieren, deren MAP mit der MLE übereinstimmt. Der verbleibende Schritt besteht darin, diesen Modus abzuschätzen. Dieses Problem wurde im CV diskutiert, zum Beispiel in "Rechnerisch effiziente Schätzung des multivariaten Modus" .

Ein Spielzeugbeispiel

Let wird , um eine Probe aus einem und nehmen sie an, dass die einzige Information aus dieser Probe vorhanden ist $(x_1,...,x_n)$ $N(\mu,1)$ . Seidie euklidische Metrik inund. Der folgende R-Code zeigt, wie mit den oben beschriebenen Methoden eine ungefähre MLE unter Verwendung einer simulierten Stichprobe mitund, einer Stichprobe der posterioren Verteilung der Größe, einer einheitlichen Priorität füraufund einen Kerndichteschätzer zur Schätzung der Mode der posterioren Probe (MAP = MLE). $\bar{x}=\dfrac{1}{n}\sum_{j=1}^n x_j$ $\rho$ ${\mathbb R}$ $\epsilon=0.001$ $n=100$ $\mu=0$ $1000$ $\mu$ $(-0.3,0.3)$

rm(list=ls())

# Simulated data
set.seed(1)
x = rnorm(100)

# Observed statistic
T0=mean(x)

# ABC Sampler using a uniform prior 

N=1000
eps = 0.001
ABCsamp = rep(0,N)
i=1

while(i<N+1){
u = runif(1,-0.3,0.3)
t.samp = rnorm(100,u,1)
Ts = mean(t.samp)
if(abs(Ts-T0)<eps){
ABCsamp[i]=u
i=i+1
print(i)
}
}

# Approximation of the MLE
kd = density(ABCsamp)
kd$x[which(kd$y==max(kd$y))]

Wie Sie sehen, erhalten wir mit einer kleinen Toleranz eine sehr gute Annäherung an die MLE (die in diesem trivialen Beispiel aus der Statistik berechnet werden kann, sofern sie ausreicht). Es ist wichtig zu beachten, dass die Auswahl der Zusammenfassungsstatistik von entscheidender Bedeutung ist. Quantile sind normalerweise eine gute Wahl für die Zusammenfassungsstatistik, aber nicht alle Auswahlmöglichkeiten ergeben eine gute Annäherung. Es kann vorkommen, dass die zusammenfassende Statistik nicht sehr aussagekräftig ist und die Qualität der Annäherung dann möglicherweise schlecht ist, was in der ABC-Community bekannt ist.

Update: Ein ähnlicher Ansatz wurde kürzlich in Fan et al. (2012) . In diesem Eintrag finden Sie eine Diskussion zum Papier.

— Gemeinschaft
quelle

(+1) Für die Angabe des korrekten Ergebnisses bezüglich der Beziehung zwischen MLE und MAP und für die Warnung im letzten Absatz (unter anderem aus Gründen). Um diese Warnung noch deutlicher zu machen, wird dieser (oder jeder andere!) Ansatz kläglich scheitern, wenn die vorliegenden Statistiken ergänzend oder nahezu ergänzend sind. Man kann zum Beispiel Ihr Spielzeugbeispiel und

T = \sum_{i} (X_{i} - \bar{X})^{2}

$T = \sum_i (X_i - \bar X)^2$

— Kardinal

+1 @procrastinator Ich wollte einfach sagen, ja, Sie können die ausreichenden Statistiken verwenden, wenn sie für Ihr Modell verfügbar sind. Aber Ihre ausführlichen Antworten scheinen das abgedeckt zu haben.

— Michael R. Chernick

Eine einfache Frage, Sie erwähnen, dass Uniform Prior MLE in seiner Unterstützung enthalten muss. Aber MLE ist eine Zufallsvariable, die nur stochastisch begrenzt ist, dh mit positiver Wahrscheinlichkeit außerhalb jeder begrenzten Menge liegen kann.

— mpiktas

@mpiktas Für eine bestimmte Stichprobe muss man sich die entsprechende Unterstützung der Uniform aussuchen. Dies kann sich ändern, wenn Sie das Sample ändern. Es ist wichtig anzumerken, dass dies kein Bayes'sches Verfahren ist, wir verwenden es nur als numerische Methode, daher gibt es kein Problem, mit der Wahl des Prioren zu spielen. Je kleiner die Unterstützung des Prior, desto besser. Dies würde die Geschwindigkeit des ABC-Samplers erhöhen. Wenn Ihre Informationen jedoch in dem Sinne vage sind, dass Sie keinen zuverlässigen Hinweis darauf haben, wo sich das MLE befindet, benötigen Sie möglicherweise eine größere Unterstützung (und zahlen den Preis).

@mpiktas Im Spielzeugbeispiel können Sie beispielsweise eine Uniform mit Unterstützung auf

oder eine Uniform mit Unterstützung auf

, um die gleichen Ergebnisse zu erzielen, jedoch mit extrem unterschiedlichen Akzeptanzraten. Die Wahl dieses Supports ist ad hoc und es ist unmöglich, einen allgemeinen Zweck vorab festzulegen, da die MLE, wie Sie bereits erwähnt haben, nicht stochastisch begrenzt ist. Diese Wahl kann als Hebel der Methode angesehen werden, die im Einzelfall angepasst werden muss.

(- 1000000, 1000000)

$(-1000000,1000000)$

(0.1, 0.15)

$(0.1,0.15)$

Es hängt alles davon ab, ob die gemeinsame Verteilung dieser bekannt ist oder nicht . Wenn es z. B. ist, können Sie eine Maximum-Likelihood-Schätzung basierend auf dieser gemeinsamen Verteilung durchführen. Beachten Sie, dass, sofern ausreicht, dies fast immer eine andere maximale Wahrscheinlichkeit ist als bei Verwendung der Rohdaten $T_i$

(T_{1}, \dots, T_{k}) \sim G (t_{1}, \dots, t_{k} | θ, n)

$(T_1,\ldots,T_k)\sim g(t_1,\ldots,t_k|\theta,n)$

(T_{1}, \dots, T_{k})

$(T_1,\ldots,T_k)$

. Es wird notwendigerweise weniger effizient sein, mit einer größeren asymptotischen Varianz.

(X_{1}, \dots, X_{n})

$(X_1,\ldots,X_n)$

Wenn die obige Fugenverteilung mit der Dichte nicht verfügbar ist, ist die von Procrastinator vorgeschlagene Lösung durchaus angemessen. $g$

— Xi'an
quelle

Der (häufigste) Maximum-Likelihood-Schätzer lautet wie folgt:

$F$

l (θ | T) = \exp (- ψ (θ) + ⟨ T, ϕ (θ) ⟩),

$l(\theta| T) = \exp\left( -\psi(\theta) + \langle T,\phi(\theta) \rangle \right),$

⟨ \cdot, \cdot ⟩

$\langle \cdot, \cdot\rangle$

T

$T$

ψ (\cdot)

$\psi(\cdot)$

ϕ (\cdot)

$\phi(\cdot)$ sind stetig doppelt differenzierbar.

Die Art und Weise, wie Sie die Wahrscheinlichkeit tatsächlich maximieren, hängt hauptsächlich von der Möglichkeit ab, die Wahrscheinlichkeit auf nachvollziehbare Weise analytisch zu schreiben. Wenn dies möglich ist, können Sie allgemeine Optimierungsalgorithmen (Newton-Raphson, Simplex ...) berücksichtigen. Wenn Sie keine nachvollziehbare Wahrscheinlichkeit haben, ist es möglicherweise einfacher, eine bedingte Erwartung wie im EM-Algorithmus zu berechnen, wodurch sich auch Schätzungen der maximalen Wahrscheinlichkeit unter eher erschwinglichen Hypothesen ergeben.

Beste

— julien stirnemann
quelle

Bei Problemen, an denen ich interessiert bin, ist eine analytische Rückverfolgbarkeit nicht möglich.

— mpiktas

Der Grund für die Nichtnachführbarkeit bedingt dann das Optimierungsschema. Erweiterungen der EM ermöglichen es jedoch in der Regel, die meisten dieser Gründe zu umgehen. Ich glaube nicht, dass ich in meinen Vorschlägen spezifischer sein kann, ohne das Modell selbst zu sehen

— julien stirnemann