Schätzung des Parameters einer gleichmäßigen Verteilung: falsch vor?

Wir haben N Proben, , aus einer gleichmäßigen Verteilung wobei unbekannt ist. Schätzen Sie aus den Daten. $X_i$ $[0,\theta]$ $\theta$ $\theta$

Also, Bayes 'Regel ...

$f(\theta | {X_i}) = \frac{f({X_i}|\theta)f(\theta)}{f({X_i})}$

und die Wahrscheinlichkeit ist:

$f({X_i}|\theta) = \prod_{i=1}^N \frac{1}{\theta}$ (bearbeiten: wenn für alle und 0 sonst - danke whuber) $0 \le X_i \le \theta$ $i$

aber ohne andere Informationen über scheint es, dass der Prior proportional zu (dh einheitlich) oder zu (Jeffreys Prior?) auf aber dann ziehen sich meine Integrale an Ich konvergiere nicht und bin mir nicht sicher, wie ich vorgehen soll. Irgendwelche Ideen? $\theta$ $1$ $\frac{1}{L}$ $[0,\infty]$

— Wille
quelle

Ihre Wahrscheinlichkeit ist falsch: Sie ist Null, wenn kleiner als das größte .

θ

$\theta$

X_{i}

$X_i$

— whuber

Können Sie zeigen, welche Integrale Sie nehmen?

Ja, ich glaube, ich weiß einfach nicht, wie ich mit dem unangemessenen Vorgänger umgehen soll. ZB möchte ich schreiben

f [X_{i}] = \int_{Θ} f (X_{i} | θ) f (θ) d θ

$f[X_i] = \int_\Theta f(X_i|\theta)f(\theta)d\theta$

— Will

Für den unpassenden Prior ist = = und für das vorherige Sie auf ähnliche WeiseDa fast sicher ist, ist es sicher, dass die Integrale konvergieren.

f [X_{i}] = \int_{Θ} f (X_{i} | θ) f (θ) d θ

$f[X_i] = \int_\Theta f(X_i|\theta)f(\theta)d\theta$

\int_{max (X_{i})}^{\infty} θ^{- N} d θ

$\int_{\max(X_i)}^\infty \theta^{-N}d\theta$

max (X_{i})^{1 - N} / (N - 1)

$\max(X_i)^{1-N}/(N-1)$

f (θ) \propto 1 / θ

$f(\theta)\propto 1/\theta$

max (X_{i})^{- N} / N .

$\max(X_i)^{-N}/N.$

max X_{i} > 0

$\max{X_i}\gt 0$

— whuber

Die Bernardo-Referenz posterior ist Pareto - siehe Katalog der nicht informativen Priors .

— Stéphane Laurent

Antworten:

Dies hat einige interessante Debatten ausgelöst, aber beachten Sie, dass es für die Frage des Interesses keinen großen Unterschied macht. Persönlich denke ich, dass das Argument der Transformationsgruppe angemessen ist , da ein Skalierungsparameter ist, was zu einem Prior von führt $\theta$

\begin{matrix} p (θ | I) = \frac{θ^{- 1}}{\log (\frac{U}{L})} \propto θ^{- 1} & L < θ < U \end{matrix}

$\begin{array}& p(\theta|I)=\frac{\theta^{-1}}{\log\left(\frac{U}{L}\right)}\propto\theta^{-1} & L<\theta<U\end{array}$

Diese Verteilung hat bei der Neuskalierung des Problems dieselbe Form (die Wahrscheinlichkeit bleibt auch bei der Neuskalierung "invariant"). Der Kern dieses Prior, kann durch Lösen der Funktionsgleichung . Die Werte hängen vom Problem ab und sind wirklich nur wichtig, wenn die Stichprobengröße sehr klein ist (wie 1 oder 2). Der hintere Teil ist ein abgeschnittenes Pareto, gegeben durch: $f(y)=y^{-1}$ $af(ay)=f(y)$ $L,U$

\begin{matrix} p (θ | D I) = \frac{N θ^{- N - 1}}{(L^{*})^{- N} - U^{- N}} & L^{*} < θ < U & where & L^{*} = m a x (L, X_{(N)}) \end{matrix}

$\begin{array}\\ p(\theta|DI)=\frac{N\theta^{-N-1}}{ (L^{*})^{-N}-U^{-N}} & L^{*}<\theta<U & \text{where} & L^{*}=max(L,X_{(N)}) \end{array}$

Wobei das N-te ist Bestellstatistik oder der Maximalwert der Probe. Wir erhalten den hinteren Mittelwert von Wenn wir setze und , um die einfachere Ausprägung zu erhalten. .

X_{(N)}

$X_{(N)}$

E (θ | D I) = \frac{N ((L^{*})^{1 - N} - U^{1 - N})}{(N - 1) ((L^{*})^{- N} - U^{- N})} = \frac{N}{N - 1} L^{*} (\frac{1 - {[\frac{L^{*}}{U}]}^{N - 1}}{1 - {[\frac{L^{*}}{U}]}^{N}})

$E(\theta|DI)= \frac{ N((L^{*})^{1-N}-U^{1-N}) }{ (N-1)((L^{*})^{-N}-U^{-N}) }=\frac{N}{N-1}L^{*}\left(\frac{ 1-\left[\frac{L^{*}}{U}\right]^{N-1} }{ 1-\left[\frac{L^{*}}{U}\right]^{N} }\right)$

U \to \infty

$U\to\infty$

L \to 0

$L\to 0$

E (θ | D I) = \frac{N}{N - 1} X_{(N)}

$E(\theta|DI)=\frac{N}{N-1}X_{(N)}$

Nehmen wir nun an, wir verwenden einen allgemeineren Prior, der durch (beachten Sie, dass wir die Grenzen um sicherzustellen, dass alles korrekt ist - dann keine singuläre Mathematik ). Der hintere Teil ist dann derselbe wie oben, jedoch wird durch - vorausgesetzt, . Wenn wir die obigen Berechnungen wiederholen, erhalten wir den vereinfachten hinteren Mittelwert von $p(\theta|cI)\propto\theta^{-c-1}$ $L,U$ $N$ $c+N$ $c+N\geq 0$

E (θ | D I) = \frac{N + c}{N + c - 1} X_{(N)}

$E(\theta|DI)=\frac{N+c}{N+c-1}X_{(N)}$

Der einheitliche Prior ( ) ergibt also eine Schätzung von vorausgesetzt, (Mittelwert ist unendlich für ). Dies zeigt, dass die Debatte hier ein bisschen so ist, ob oder als Divisor in der Varianzschätzung verwendet werden soll oder nicht . $c=-1$ $\frac{N-1}{N-2}X_{(N)}$ $N\geq 2$ $N=2$ $N$ $N-1$

Ein Argument gegen die Verwendung der falschen Uniform vor diesem Fall ist, dass der hintere Teil unpassend ist, wenn , da er proportional zu . Dies ist jedoch nur wichtig, wenn oder sehr klein ist. $N=1$ $\theta^{-1}$ $N=1$

— Wahrscheinlichkeitslogik
quelle

Da der Zweck hier vermutlich darin besteht, eine gültige und nützliche Schätzung von , sollte die vorherige Verteilung mit der Spezifikation der Verteilung der Population übereinstimmen, aus der die Stichprobe stammt. Dies bedeutet in keiner Weise, dass wir den Prior anhand der Stichprobe selbst "berechnen" - dies würde die Gültigkeit des gesamten Verfahrens zunichte machen. Wir wissen, dass die Population, aus der die Stichprobe stammt, eine Population von einheitlichen Zufallsvariablen ist, die jeweils in . Dies ist eine aufrechterhaltene Annahme und Teil der vorherigen Informationen, die wir besitzen (und sie hat nichts mit der Stichprobe zu tun , dh mit einer spezifischen Realisierung einer Teilmenge dieser Zufallsvariablen). $\theta$ $[0,\theta]$

Nehmen wir nun an, dass diese Population aus Zufallsvariablen besteht (während unsere Stichprobe aus Realisierungen von Zufallsvariablen besteht). Die beibehaltene Annahme besagt, dass $m$ $n<m$ $n$

max_{i = 1, . . ., n} {X_{i}} \leq max_{j = 1, . . ., m} {X_{j}} \leq θ

$\max_{i=1,...,n}\{X_i\}\le \max_{j=1,...,m}\{X_j\} \le \theta$

Bezeichnen Sie für Kompaktheit . Dann haben wir das auch geschrieben werden kann $\max_{i=1,...,n}\{X_i\} \equiv X^*$ $\theta \ge X^*$

θ = c X^{*} c \geq 1

$\theta = cX^*\qquad c\ge 1$

Die Dichtefunktion des von iid Uniform rvs im Bereich von ist $\max$ $N$ $[0,\theta]$

f_{X^{*}} (x^{*}) = N \frac{(x^{*})^{N - 1}}{θ^{N}}

$f_{X^*}(x^*) = N\frac {(x^*)^{N-1}}{\theta^N}$

für die Unterstützung und Null an anderer Stelle. Dann erhalten wir durch Verwendung von und Anwenden der Formel zur Änderung der Variablen eine vorherige Verteilung für , die mit der beibehaltenen Annahme : $[0,\theta]$ $\theta = cX^*$ $\theta$

f_{p} (θ) = N \frac{(\frac{θ}{c})^{N - 1}}{θ^{N}} \frac{1}{c} = \frac{N}{c^{N}} θ^{- 1} θ \in [x^{*}, \infty]

$f_p(\theta) = N\frac {(\frac{\theta}{c})^{N-1}}{\theta^N}\frac 1c = \frac {N}{c^N} \theta^{-1}\qquad \theta \in [x^*, \infty]$

Dies kann unangemessen sein, wenn wir die Konstante angemessen angeben . Unser Interesse liegt jedoch darin, einen geeigneten posterioren Wert für , und wir möchten auch die möglichen Werte von nicht einschränken (über die Einschränkung hinaus, die durch die beibehaltene Annahme impliziert wird). Also lassen wir unbestimmt. Dann schreibe der hintere ist $c$ $\theta$ $\theta$ $c$
$\mathbf X = \{x_1,..,x_n\}$

f (θ ∣ X) \propto θ^{- N} \frac{N}{c^{N}} θ^{- 1} \Rightarrow f (θ ∣ X) = A \frac{N}{c^{N}} θ^{- (N + 1)}

$f(\theta \mid \mathbf X)\; \propto\; \theta^{-N}\frac {N}{c^N} \theta^{-1} \Rightarrow f(\theta \mid \mathbf X) = A\frac {N}{c^N} \theta^{-(N+1)}$

für eine Normalisierungskonstante A. Wir wollen

\int_{S_{θ}} f (θ ∣ X) d θ = 1 \Rightarrow \int_{x^{*}}^{\infty} A \frac{N}{c^{N}} θ^{- (N + 1)} d θ = 1

$\int_{S_{\theta}}f(\theta \mid \mathbf X)d\theta =1 \Rightarrow \int_{x^*}^{\infty}A\frac {N}{c^N} \theta^{-(N+1)}d\theta =1$

\Rightarrow A \frac{N}{c^{N}} \frac{1}{- N} θ^{- N} |_{x^{*}}^{\infty} = 1 \Rightarrow A = (c x^{*})^{N}

$\Rightarrow A\frac {N}{c^N}\frac {1}{-N}\theta^{-N}\Big |_{x^*}^{\infty} = 1 \Rightarrow A = (cx^*)^N$

Einfügen in das hintere

f (θ ∣ X) = (c x^{*})^{N} \frac{N}{c^{N}} θ^{- (N + 1)} = N (x^{*})^{N} θ^{- (N + 1)}

$f(\theta \mid \mathbf X) = (cx^*)^N\frac {N}{c^N} \theta^{-(N+1)} = N(x^*)^N\theta^{-(N+1)}$

Es ist zu beachten, dass die unbestimmte Konstante der vorherigen Verteilung zweckmäßigerweise aufgehoben wurde. $c$

Der hintere Teil fasst alle Informationen zusammen, die uns die spezifische Probe bezüglich des Wertes von . Wenn wir einen bestimmten Wert für wollen, können wir leicht den erwarteten Wert des posterioren berechnen $\theta$ $\theta$

E (θ ∣ X) = \int_{x^{*}}^{\infty} θ N (x^{*})^{N} θ^{- (N + 1)} d θ = - \frac{N}{N - 1} (x^{*})^{N} θ^{- N + 1} |_{x^{*}}^{\infty} = \frac{N}{N - 1} x^{*}

$E(\theta\mid \mathbf X) = \int_{x^*}^{\infty}\theta N(x^*)^N\theta^{-(N+1)}d\theta = -\frac{N}{N-1}(x^*)^N\theta^{-N+1}\Big |_{x^*}^{\infty} = \frac{N}{N-1}x^*$

Gibt es eine Intuition in diesem Ergebnis? Nun, wenn die Anzahl der zunimmt, ist es wahrscheinlicher, dass die maximale Verwirklichung unter ihnen näher und näher an ihrer Obergrenze - was genau der hintere Mittelwert von widerspiegelt: wenn zum Beispiel , , aber wenn . Dies zeigt , dass unsere Taktik in Bezug auf der Auswahl des Standes war angemessen und im Einklang mit dem Problem auf der Hand, aber nicht unbedingt „optimal“ in gewissem Sinne. $X$ $\theta$ $\theta$ $N=2 \Rightarrow E(\theta\mid \mathbf X) = 2x^*$ $N=10 \Rightarrow E(\theta\mid \mathbf X) = \frac{10}{9}x^*$

— Alecos Papadopoulos
quelle

Den Prior auf die Daten zu stützen, klingt für mich faul. Wie rechtfertigen Sie diesen Ansatz?

— whuber

Ich habe nichts gegen die Tatsache, dass Ihr Prior nicht "der Beste" ist. Wo habe ich so etwas gesagt? Ich versuche nur, Ihren Ansatz zu verstehen. Ich verstehe diese Gleichheit noch nicht. Wenn in der Gleichheit konstant ist , bedeutet das, dass sowohl als auch nicht zufällig sind? Durch die Art und Weise müssen Sie nicht verwenden , die Tatsache , dass bei der Ableitung des Standes, nicht wahr? (cc @whuber)

c

$c$

θ = c X^{*}

$\theta=cX^*$

X^{*}

$X^*$

θ

$\theta$

c \geq 1

$c \geq 1$

— Stéphane Laurent

Und die Unterstützung Ihres Prior hängt von den Daten ab? ( )

θ \in [x^{*}, \infty [

$\theta \in [x^*, \infty[$

— Stéphane Laurent

Eine vorherige Abhängigkeit (auch wenn dies nur durch die Unterstützung erfolgt) von den Daten klingt falsch: Sie können das Maximum der Probe nicht kennen, bevor die Probe generiert wurde . Darüber hinaus behaupten Sie, dass eine fast sichere Gleichheit ist, wobei sowohl als auch zufällig sind (daher gibt es Korrelation ). Dies impliziert jedoch, dass die hintere Verteilung von (die die bedingte Verteilung von gegebener Probe ist) die Dirac-Masse bei . Und dies widerspricht Ihrer Ableitung der posterioren Verteilung. ... (keine Zeichen mehr ...)

θ = c X^{*}

$\theta = cX^*$

θ

$\theta$

X^{*}

$X^*$

1

$1$

θ

$\theta$

θ

$\theta$

c x^{*}

$cx^*$

— Stéphane Laurent

Die Verteilung von posterior ist Dirac bei bedeutet , dass IS . Der Bayes-Satz ist nicht die Ursache. Sie zerstören alles, indem Sie annehmen . Dies impliziert , daher ist die bedingte Verteilung von bei die Dirac-Masse bei , während die ursprüngliche Annahme ist, dass diese Verteilung die gleichmäßige Verteilung auf .

θ

$\theta$

c x^{*}

$cx^*$

θ

$\theta$

c x^{*}

$cx^*$

θ = c X^{*}

$\theta = cX^*$

X^{*} = θ / c

$X^*=\theta/c$

X^{*}

$X^*$

θ

$\theta$

θ / c

$\theta/c$

(0, θ)

$(0,\theta)$

— Stéphane Laurent

Einheitlicher Satz der vorherigen Verteilung (Intervallfall):

"Wenn die Gesamtheit Ihrer Informationen über außerhalb der Daten durch den einzelnen Satz dann Ihre einzige mögliche logisch-intern konsistente vorherige Spezifikation ist $\theta$ $D$

B = {{Possible values for θ} = {the interval (a, b)}, a < b}

$B=\{\{\text{Possible values for } \theta\}=\{\text{the interval } (a,b)\},a<b\}$

f (θ) = Uniform (a, b)

$f(\theta)=\text{Uniform}(a,b)$

Daher sollte Ihre vorherige Spezifikation der vorherigen von Jeffrey entsprechen, wenn Sie wirklich an den obigen Satz glauben. "

Nicht Teil des einheitlichen Vorverteilungssatzes:

Alternativ können Sie Ihre vorherige Verteilung als Pareto-Verteilung angeben , bei der es sich um die konjugierte Verteilung für die Uniform handelt, wobei Sie wissen, dass Ihre hintere Verteilung durch Konjugation eine andere gleichmäßige Verteilung sein muss. Wenn Sie jedoch die Pareto-Verteilung verwenden, müssen Sie die Parameter der Pareto-Verteilung auf irgendeine Weise angeben. $f(\theta)$

Zuerst sagen Sie, die "nur mögliche logisch intern konsistente" Antwort sei eine gleichmäßige Verteilung, und dann schlagen Sie eine Alternative vor. Das klingt für mich unlogisch und widersprüchlich :-).

— whuber

Ich kann nicht zustimmen. Zum Beispiel ist auch die MengeWenn die PDF von ist für . Aber nach dem "Theorem" dessen PDF in diesem Intervall . Kurz gesagt, obwohl der Satz nicht davon abhängt, wie das Problem parametrisiert wird, hängt die Schlussfolgerung des "Theorems" von der Parametrisierung ab, aus der er nicht eindeutig ist.

B

$B$

{θ | θ^{3} \in (a^{3}, b^{3})} .

$\{\theta | \theta^3\in(a^3, b^3)\}.$

Θ \sim Uniform (a, b),

$\Theta\sim\text{Uniform}(a,b),$

Ψ = Θ^{3}

$\Psi=\Theta^3$

1 / (3 ψ^{2 / 3} (b - a))

$1/(3\psi^{2/3}(b-a))$

a^{3} < ψ < b^{3}

$a^3\lt \psi\lt b^3$

Ψ \sim Uniform (a^{3}, b^{3})

$\Psi\sim\text{Uniform}(a^3,b^3)$

1 / (b^{3} - a^{3})

$1/(b^3-a^3)$

— whuber

BabakP: Wie könnte man sagen, dass dies ein Satz ist ? Ein Satz ist eine mathematische Behauptung mit einem mathematischen Beweis. Dieser "Satz" würde angemessener als "Prinzip" bezeichnet, ist aber nicht sinnvoll, weil er widersprüchlich ist, wie @whuber zeigt.

— Stéphane Laurent

Danke für den Hinweis BabakP. Ich möchte darauf hinweisen, dass die "Beweisskizze" falsch ist. Draper unterteilt das Intervall in eine endliche Anzahl von Werten mit gleichem Abstand und "geht an die Grenze". Jeder kann das Intervall in Werte unterteilen, die so angeordnet sind, dass sie sich jeder gewünschten Dichte annähern und in ähnlicher Weise an die Grenze gehen, wodurch vollkommen willkürliche "nur mögliche logisch-intern konsistente vorherige Spezifikationen" erzeugt werden. Diese Art von Dingen - nämlich die Verwendung schlechter Mathematik, um zu zeigen, dass Nicht-Bayesianer unlogisch sind - gibt der Bayes'schen Analyse einen (unverdienten) schlechten Ruf. (cc @ Stéphane.)

— whuber

@ Stéphane Bitte verzeihen Sie meine Unempfindlichkeit ( insensibilité ) - ich interagieren hier in einer zweiten Sprache Ihre Fähigkeiten bewundern und benutzen wissentlich keine obskuren Bedingungen! Bogus ist ein Adjektiv, das aus einem 200 Jahre alten US-Slang-Begriff stammt, der sich auf eine Maschine zur Geldfälschung bezieht. In diesem Fall handelt es sich um eine mathematische Maschine zur Fälschung von Theoremen :-).

— whuber