Konfidenzintervalle für ein Polynom

8

Ich habe eine Zufallsvariable $Z$ die Werte in den nichtnegativen ganzen Zahlen annimmt. Nenne $\{ 0,1,2,\dots \}$ die Wahrscheinlichkeiten für jedes Ergebnis $z_k:=P[Z=k]$ . Ich kann unabhängig und billig aus $Z$ Distribution probieren . Ich habe derzeit eine Stichprobengröße von $2^{28}$ . Es scheint, dass $z_0\approx 0.24, z_1\approx 0.18,\dots$ mit ungefähr exponentiellem Abfall ist.

Ich habe eine Folge von quadratischen Formen mit positiven Koeffizienten:

$Q_0(z_0) = \frac14 z_0^2$
$Q_1(z_0,z_1) = \frac 12 {z_0 z_1}$
...
$Q_7(z_0,z_1,\dots,z_7) = \frac{1}{8} \left(2 z_0 z_1+3 z_2 z_1+4 z_4 z_1+4 z_6 z_1+3 z_0 z_3 + \right.$ $\qquad\qquad\qquad\qquad\qquad\qquad \left. +4 z_2 z_3+4 z_3 z_4+4 z_0 z_5+4 z_2 z_5+4 z_0 z_7\right)$
...

Was ich gerne hätte, ist ein Konfidenzintervall für die $Q_i$ , das weniger als $10^{-4}$ breit ist, aber ich werde alles nehmen, was ich bekommen kann.

Ich habe strenge Grenzen für das $z_i$ , und da die Koeffizienten der $Q$ alle positiv sind, ist es einfach, diese in strenge Grenzen für die $Q$ umzuwandeln. Aber ich weiß nicht, wie ich das mit Konfidenzintervallen richtig machen soll.

Um was geht's hier? Ich habe in der Zahlentheorie ein bizarres Phänomen gefunden, und ich weiß, wie ich beweisen kann, dass es wirklich passiert, aber tatsächlich erfordert dies einige Programmieranstrengungen meinerseits und eine beträchtliche Menge Zeit in unserem lokalen Cluster. Bevor ich diese Zeit investiere und unsere Maschine verstopfe, möchte ich sicherer sein als ich, dass das Phänomen real ist.

Ich möchte die Angemessenheit meiner Behauptung quantifizieren, dass und . Meine Schätzungen gehen davon aus, dass bei liegt, weshalb ich CIs mit dieser Auflösung wollte. $Q_7<Q_6$ $Q_7<Q_8$ $Q_6-Q_7$ $5\cdot 10^{-4}$

$n$ $A$ $\{1,2,\dots,n\}$ $2^{-n}$ $Q_k(n)$ $k$ $\{2,3,\dots,2n\}$ $A$ $Q_k = \lim_n Q_k(n)$ . Es ist etwas schwierig zu beweisen, aber diese Grenzen existieren und . Nun ist es keine Überraschung, dass klein ist und mit zunehmendem zunimmt, einen Peak hat und dann exponentiell abfällt. Der bizarre Teil ist, dass es eine gegen 7 gibt. Das heißt, experimentell und . Das heißt, was keine Überraschung war, stimmt eigentlich nicht: Die Verteilung ist bimodal. $\sum_{k} Q_k =1$ $Q_0$ $k$ $Q_k$ $Q_7< Q_6$ $Q_7<Q_8$

Ich kann die 's (unter Verwendung einer Theorie) wie oben ohne die Grenze in Bezug auf diese andere Verteilung ausdrücken , die durch die ' s definiert ist. Das ist praktisch, weil ich eine Möglichkeit habe, die mithilfe einiger großer Berechnungen rigoros zu binden , wie ich oben erwähnt habe. Außerdem habe ich einen sehr großen Datensatz für die Variable. $Q_i$ $z_i$ $z_i$ $Z$

confidence-interval

— Kevin O'Bryant
quelle

Ihr Unbehagen in Bezug auf die Sprache der Konfidenzintervalle, aber ansonsten eine strenge Darstellung, lässt darauf schließen, dass Sie möglicherweise in der Lage sind, uns ein wenig mehr Informationen zu geben, um Ihnen zu helfen. Normalerweise können Sie eine von zwei Eigenschaften eines CI angeben: entweder seine Abdeckung oder seine Länge. Der andere wird durch die Daten bestimmt. Es ist jedoch ungewöhnlich, die Länge festzulegen: Sind Sie sicher, dass Sie dies möchten? Es ist auch unklar, ob Sie CIs für die Qs separat oder gleichzeitig benötigen. Vielleicht könnten Sie angeben, wofür Sie diese CIs verwenden möchten?

— whuber

3

In meiner Antwort stelle ich viele Links zu Hintergrundmaterial bereit, um hier Platz zu sparen. Ich werde meine Antwort schreiben und die Informationen in den angegebenen Links verwenden.

Ich denke, ein Bayes'scher Ansatz passt natürlich zu diesem Problem, zumal Sie nur sich selbst überzeugen wollen. Es ist etwas kompliziert, Konfidenzintervalle zu verwenden, um die Frage zu beantworten, die Ihnen wirklich am Herzen liegt, wie plausibel es ist, dass und die Stichprobe aus dem Verteilung? Mit dem Bayes'schen Ansatz können Sie diese Frage direkt beantworten. $Q_{7}<Q_{6}$ $Q_{7}<Q_{8}$ $z_{i}$

Wahrscheinlichkeitsfunktion

Sei die beobachtete Häufigkeit des ganzzahligen Ergebnisses in Ihrer Stichprobe und sei die Stichprobengröße. Die Wahrscheinlichkeitsfunktion ist proportional zur Multinomialverteilung . Es hat die Form $f_k$ $k$ $N$

$L(z_{0},...z_{8};f_{0},...f_{8})=\prod_{i=0}^{8}{z_{i}}^{Nf_{i}}$ .

Vorherige Verteilung

Die Dirichlet-Verteilung ist die natürliche Wahl für die vorherige Verteilung, da sie das konjugierte Prior für die multinomiale Wahrscheinlichkeit ist. Es hat die Form

$p(z_{0},...z_{8};\alpha_{0},...,\alpha_{8})\propto\prod_{i=0}^{8}{z_{i}}^{\alpha_{i}-1}$

Dieser Prior hat neun Hyperparameter (die Werte), und es ist ein bisschen , mit ihnen umzugehen. In diesem Kontext mit „großen Stichproben“ hat jede vernünftige Auswahl von Hyperparameterwerten einen vernachlässigbaren Einfluss auf das Ergebnis, aber ich denke, es lohnt sich, ein wenig Mühe in die Auswahl vernünftiger Werte zu investieren. $\alpha_i$

Hier ist, wie ich empfehle, die Hyperparameter einzustellen. Beachten Sie zunächst, dass unter dieser Verteilung . Beachten Sie als nächstes, dass die einfachste maximale Entropieverteilung über die Naturwerte die geometrische Verteilung ist . Also setzen $\mathrm{E}(z_{i})=\frac{\alpha_{i}}{\sum_{i=0}^{8}\alpha_{i}}$

$\alpha_{i+1}=r\alpha_{i}=r^{i}\alpha_{0},\,0<r<1,$

$\alpha_{0}=A\left(\frac{1-r}{1-r^{9}}\right).$

Dann ist , also die Verteilung des Werte werden auf eine (abgeschnittene) geometrische Verteilung zentriert. Außerdem ist , sodass der Wert von die Streuung um diese Erwartung steuert, aber keinen Einfluss auf die Erwartung hat selbst. $\mathrm{E}(z_{i})=r^{i}\left(\frac{1-r}{1-r^{9}}\right)$ $z_{i}$ $\mathrm{Var}\left(z_{i}\right)\propto\frac{1}{(A+1)}$ $A$

Diese Spezifikation reduziert die Anzahl der Hyperparameter aus den neun Werte nur und . Ich werde die Diskussion über bestimmte Werte von und vorerst verschieben . $\alpha_{i}$ $r$ $A$ $r$ $A$

Hintere Wahrscheinlichkeit des interessierenden Satzes

Die hintere Verteilung der -Werte ist die folgende Dirichlet-Verteilung: $z_{i}$

$p(z_{0},...z_{8}|f_{0},...,f_{8})\propto\prod_{i=0}^{8}{z_{i}}^{\alpha_{i}+Nf_{i}-1}.$

Sei . Die hintere Wahrscheinlichkeit, an der Sie interessiert sind, ist $\mathbb{Y}=\left\{ z_{0},...z_{8}|Q_7<Q_6 \text{ and } Q_7<Q_8\right\}$

$\Pr(Q_7<Q_6 \text{ and } Q_7<Q_8|f_0,...,f_8) \propto \int_{\mathbb{Y}}\prod_{i=0}^{8}{z_{i}}^{\alpha_{i}+Nf_i-1}dz_{i}.$

Dieses Integral ist unlösbar, aber Sie können die interessierende Wahrscheinlichkeit numerisch mit dem folgenden Monte-Carlo-Algorithmus berechnen.

Für von bis , $j$ $1$ $J$

Probieren Sie eine Reihe von Werten aus ihrer posterioren Verteilung aus. $z_i$
Verwenden Sie die abgetasteten Werte, um zu berechnen, wobei die Indikatorfunktion ist. $y_j=I(Q_{7}<Q_{6})I(Q_{7}<Q_{8})$ $I(\cdot)$

Dann . $\Pr(Q_7<Q_6 \text{ and }Q_7<Q_8|f_{0},...,f_{8})\approx \frac{\sum_{j=0}^Jy_j}{J}$

Die Genauigkeit der Monte-Carlo-Näherung lautet wie folgt : : Mit erhalten Sie mindestens zwei von 20 Dezimalstellen Genauigkeit, mit erhalten Sie mindestens drei Dezimalstellen von Genauigkeit 19 mal von 20 usw. $\sqrt{J}$ $J=10^4$ $J=10^6$

Und wenn Ihre hintere Wahrscheinlichkeit von Interesse nicht nahe bei 0 oder 1 liegt, probieren Sie einfach weitere Daten aus, spülen Sie sie aus und wiederholen Sie sie.

Vorherige Hyperparameter, Teil zwei

Der Exponent von im Ausdruck für die hintere Dichte ist $z_i$

$\alpha_i + Nf_i - 1 = Ar^{i}\left(\frac{1-r}{1-r^{9}}\right) +Nf_i - 1 = A\mathrm{E}(z_i) +Nf_i - 1$

Es ist ersichtlich, dass der Hyperparameter in der vorherigen Verteilung dieselbe Rolle spielt wie in der Wahrscheinlichkeit - es ist eine Art "vorherige Stichprobengröße". Um sicherzustellen, dass der Prior einen vernachlässigbaren Einfluss auf die Schlussfolgerung hat, wählen Sie einfach einen Wert von so dass ; Zum Beispiel ist . $A$ $N$ $A$ $A\ll N$ $A = 1$

Um zu setzen , beachten Sie, dass Sie die vorherige Wahrscheinlichkeit des Satzes mit demselben oben beschriebenen Monte-Carlo-Algorithmus berechnen können, wobei jedoch die vorherige Verteilung anstelle der posterioren Verteilung in Schritt 1 des Satzes Schleife. Versuchen Sie, einen Wert von zu finden , der eine vorherige Wahrscheinlichkeit von 0,5 ergibt (oder weniger, wenn Sie der Meinung sind, dass dies vernünftiger ist). $r$ $Q_7<Q_6 \text{ and } Q_7<Q_8$ $r$

— Cyan
quelle

Nein, ich überspringe nur einige technische Details. Eine technisch vollständigere Analyse würde mit einem Dirichlet-Prozess beginnen und dann zeigen, dass das Ergebnis der Marginalisierung des zählbar unendlichen Satzes irrelevanter Parameter die oben angegebene Dirichlet-Verteilung ist.

z_{i}

$z_i$

— Cyan

1

Ich nehme an, die z_k sind keine Wahrscheinlichkeiten, sondern Abtastfrequenzen. Dies liegt daran, dass Q_i (z_0, ..., z_i) ansonsten keine Zufallsvariable ist. In diesem Fall ist die Berechnung der Varianz der Q_i eine einfache Algebra. Definieren Sie zunächst die Ereignisindikatoren Z_i, die 1 sind, wenn Z == i, andernfalls 0. Es ist eine Bernoulli-Zufallsvariable mit der Wahrscheinlichkeit p_i. Sie können den ersten und zweiten Moment jeder dieser Variablen berechnen und sie sollten Ihnen alle notwendigen Begriffe zur Berechnung der Varianz der Q_i geben.

— AdamO
quelle

Nein, die sind Konstanten der Natur und folglich auch . Es ist eine reelle Zahl, aber die Frage ist, welche reelle Zahl. Mein Sampling läßt schätze ich die , und wenn ich die in die Formel verbindet Stecker zum ich eine Schätzung für bekommen (etwa ). Aber ich verstehe nicht, wie gut diese Schätzung ist. Wenn ich 99% CIs für jedes nehme und diese anschließe, erhalte ich ein Intervall, aber wie hoch ist das Konfidenzniveau? Ich denke auch nicht, dass die CIs für das unabhängig sind.

z_{i}

$z_i$

Q_{7}

$Q_7$

{\hat{z}}_{i}

$\hat{z}_i$

Q_{7}

$Q_7$

z_{i}

$z_i$

Q_{7}

$Q_7$

0.07

$0.07$

z_{i}

$z_i$

z_{i}

$z_i$

— Kevin O'Bryant

Mangelnde Unabhängigkeit ist hier kein Problem, Kevin (Sie können dies rechtfertigen, indem Sie die wahre multinomiale Verteilung des analysieren, wenn Sie dies wünschen).

{\hat{z}}_{i}

$\hat{z}_i$

— whuber

Da Sie aus Ihren Daten bereits eine Schätzung für berechnen können, können Sie eine Resampling-Technik wie Bootstrap verwenden, um ein CI für zu finden . en.wikipedia.org/wiki/Bootstrapping_(statistics)

Q_{7}

$Q_7$

Q_{7}

$Q_7$

— Zen

@Zen: Ich hatte von Bootstrapping gehört, hätte aber nie gedacht, dass mir das passieren würde. Im Ernst, ich versuche es zum Laufen zu bringen, aber es ist zeitaufwändig, 1000 Mal neu abzutasten (jedes Resampling hat Punkte). Selbst 1000 Resamples der Größe benötigen 2 Stunden.

2^{28}

$2^{28}$

2^{16}

$2^{16}$

— Kevin O'Bryant

1

Kevin, bitte sei vorsichtig, da ich deine Notation ein wenig ändern muss: deine sind nicht meine . $z_i$ $z_i$

Ich denke, die folgende Bayes'sche Lösung ist einen Versuch wert. Kochen Sie einen zufälligen Parameter und lassen Sie bedingt iid sein, wenn , mit . Verwenden Sie die Notation . Sie haben bereits eine Stichprobe der mit . Definieren Sie die Zufallsvariablen Für (falls dies der ist nicht klar, werfen Sie einen Blick ). Nun, in dieser Formulierung Ihre quadratischen Formen $\Lambda>0$ $Z_1,\dots,Z_n$ $\Lambda=\lambda$ $Z_i\mid\Lambda = \lambda \sim \textrm{Poisson}(\lambda)$ $Z=(Z_1,\dots,Z_n)$ $z=(z_1,\dots,z_n)$ $Z_i$ $n=2^{28}$

Θ_{i} = P {Z_{i} = k ∣ Λ} = \frac{e^{- Λ} Λ^{k}}{k!},

$\Theta_i = P\{Z_i=k\mid \Lambda\} = \frac{e^{-\Lambda}\Lambda^k }{k!} \, ,$

i \geq 0

$i\geq 0$

Q_{i} = Q_{i} (Θ_{0}, \dots, Θ_{i}) = Q_{i} (Λ)

$Q_i=Q_i(\Theta_0,\dots,\Theta_i) = Q_i(\Lambda)$ sind Funktionen von . Die sind also zufällig und Sie möchten die hintere Wahrscheinlichkeit Mit einem früheren haben wir nach dem Bayes-Theorem Sie berechnen Erzeugung von iid aus der vorherigen Verteilung (verwenden Sie R !) Und berechnen

Λ

$\Lambda$

Q_{i}

$Q_i$

P {Q_{7} < Q_{6} and Q_{7} < Q_{8} ∣ Z = z} . (*)

$P\{Q_7<Q_6 \,\,\,\textrm{and}\,\,\, Q_7<Q_8\mid Z=z\} \, . \qquad (*)$

Λ \sim Gamma (a, b)

$\Lambda\sim\textrm{Gamma}(a,b)$

Λ ∣ Z = z \sim Gamma (a + \sum_{i = 1}^{n} z_{i}, b + n) .

$\Lambda\mid Z=z \sim \, \textrm{Gamma}\left( a + \sum_{i=1}^n z_i, b + n\right) \, .$

(*)

$(*)$

λ_{i}

$\lambda_i$

\frac{1}{N} \sum_{i = 1}^{N} I_{(- \infty, Q_{6} (λ_{i})) \cap (Q_{8} (λ_{i}), \infty)} (Q_{7} (λ_{i})),

$\frac{1}{N} \sum_{i=1}^N I_{(-\infty,Q_6(\lambda_i))\cap(Q_8(\lambda_i),\infty)}(Q_7(\lambda_i)) \, ,$ was durch das starke Gesetz der großen Zahlen fast sicher zu konvergiert . Um ein "Ja" zu Ihrer ursprünglichen Frage zu erhalten, muss diese hintere Wahrscheinlichkeit "groß genug" sein. Mit solch einer großen Stichprobe ( ) denke ich, dass es möglich ist, mit den Werten von und zu spielen, um Ihre vorherige Wahl nicht viel "informativ" zu machen.

(*)

$(*)$

n = 2^{28}

$n=2^{28}$

a

$a$

b

$b$

— Zen
quelle

Diese Poisson-Verteilung scheint eine eher restriktive Annahme zu sein, oder?

— Cyan

Wir brauchen eine Distribution, deren Unterstützung ist, die die Berechnungen ermöglicht. Mal sehen, was Kevin mit diesem Modell finden kann.

Z_{+}

$\mathbb{Z}_+$

— Zen