Gibt es einen Bayes'schen Ansatz zur Dichteschätzung?

Ich bin daran interessiert, die Dichte einer stetigen Zufallsvariablen abzuschätzen . Eine Möglichkeit, dies zu tun, ist die Verwendung der Kernel-Dichteschätzung. $X$

Jetzt interessiere ich mich jedoch für einen Bayes'schen Ansatz in der folgenden Richtung. Ich glaube zunächst, dass einer Verteilung folgt . Ich nehme Messungen von . Gibt es einen Ansatz, um basierend auf meinen neuen Messwerten zu aktualisieren ? $X$ $F$ $n$ $X$ $F$

Ich weiß, ich höre mich so an, als würde ich mir selbst widersprechen: Wenn ich nur an als meine vorherige Verteilung glaube , dann sollten mich keine Daten davon überzeugen. Allerdings nehme waren und meine Datenpunkte waren wie . Da ich sehe , kann ich mich natürlich nicht an meinen vorherigen halten, aber wie soll ich ihn aktualisieren? $F$ $F$ $Unif[0,1]$ $(0.3, 0.5, 0.9, 1.7)$ $1.7$

Update: Basierend auf den Vorschlägen in den Kommentaren habe ich begonnen, Dirichlet-Prozess zu suchen. Lassen Sie mich die folgenden Notationen verwenden:

$G \sim DP(\alpha,H)\\ \theta_i | G \sim G\\ x_i | \theta_i \sim N(\theta_i,\sigma^2)$

Nachdem ich mein ursprüngliches Problem in dieser Sprache formuliert habe, bin ich wahrscheinlich an Folgendem interessiert: . Wie macht man das? $\theta_{n+1} | x_1,...,x_n$

In dieser Gruppe von Notizen (Seite 2) hat der Autor ein Beispiel für (Polya Urn Scheme). Ich bin mir nicht sicher, ob dies relevant ist. $\theta_{n+1} | \theta_1,...,\theta_n$

Update 2: Ich möchte auch fragen (nachdem ich die Notizen gesehen habe): Wie wählen die Leute für den DP aus? Es scheint eine zufällige Wahl zu sein. Wie wählen die Leute außerdem ein vorheriges für DP aus? Sollte ich für nur ein Prior als mein Prior für ? $\alpha$ $H$ $\theta$ $H$

— renrenthehamster
quelle

"Wenn ich nur an F als meine vorherige Verteilung glaube, dann sollten mich keine Daten anders überzeugen." Dies ist der Gegensatz zur Bayes'schen Folgerung, die eher dem Prinzip entspricht , was Sie einerseits und die Welt andererseits glauben, und sie zusammenzudrücken und zu sehen, was herauskommt. Waschen, ausspülen, wiederholen.

— Alexis

Wissen Sie etwas über den Dirichlet-Prozess?

— Niandra82

Ignorieren Sie Ihren letzten Absatz: Es gibt zwei gängige Optionen für dieses Problem. Eine ist eine endliche Mischung von Normalen (Sie können wählen, wie viele Normalen auf der Wahrscheinlichkeit einer Kreuzvalidierung basieren) oder eine unendliche Mischung von Normalen, wie @ niandra82 vorschlägt. Diese können mit so etwas wie Gibbs-Sampling oder Variationsinferenz durchgeführt werden. Kennen Sie eine dieser Methoden?

Ich sollte auch fragen, wie Sie diesen KDE nutzen wollen. Die gewählte Methode und die Größe (unendlich, endlich) können von Ihrem Ziel abhängen.

Dies klingt entweder nach einem Modellwahlproblem oder nach einem philosophischen Problem. In Wirklichkeit setzt unsere Wahl, welche Wahrscheinlichkeit in der Bayes'schen Folgerung verwendet wird, auch frühere Überzeugungen voraus ...

— Zoë Clark,

Antworten:

Da Sie einen bayesianischen Ansatz wünschen, müssen Sie einige Vorkenntnisse über die zu schätzende Sache voraussetzen. Dies erfolgt in Form einer Ausschüttung.

Nun gibt es das Problem, dass dies jetzt eine Verteilung über Verteilungen ist. Dies ist jedoch kein Problem, wenn Sie davon ausgehen, dass die Kandidatenverteilungen aus einer parametrisierten Verteilungsklasse stammen.

Wenn Sie beispielsweise davon ausgehen möchten, dass die Daten mit unbekanntem Mittelwert, aber bekannter Varianz gaußverteilt sind, brauchen Sie nur einen Vorrang vor dem Mittelwert.

Die MAP-Schätzung des unbekannten Parameters (nenne es ) könnte fortgesetzt werden, indem angenommen wird, dass alle Beobachtungen / Datenpunkte angesichts des unbekannten Parameters bedingt unabhängig sind. Dann ist die MAP-Schätzung $\theta$

, $\hat{\theta} = \arg \max_\theta ( \text{Pr}[x_1,x_2,...,x_n,\theta] )$

woher

. $\text{Pr}[x_1,x_2,...,x_n,\theta] = \text{Pr}[x_1,x_2,...,x_n | \theta] \text{Pr}[\theta] = \text{Pr}[\theta] \prod_{i=1}^n \text{Pr}[x_i | \theta]$

Es ist zu beachten, dass es bestimmte Kombinationen der vorherigen Wahrscheinlichkeit und der Kandidatenverteilungen , die zu einfachen Aktualisierungen (in geschlossener Form) führen, wenn mehr Datenpunkte empfangen werden. $\text{Pr}[\theta]$ $\text{Pr}[x | \theta]$

— Bohne
quelle

Für die Dichteschätzung ist dies nicht erforderlich

. $\theta_{n+1}|x_{1},\ldots,x_{n}$

Die Formel in Noten bezieht sich auf die prädiktive Verteilung des Dirichlet-Prozesses. $\theta_{n+1}|\theta_{1},\ldots,\theta_{n}$

Für die Dichteschätzung muss tatsächlich aus der prädiktiven Verteilung

π (d x_{n + 1} | x_{1}, \dots, x_{n})

$\pi(dx_{n+1}|x_{1},\ldots,x_{n})$

Die Probenahme aus der obigen Verteilung kann entweder mit bedingten Methoden oder mit Randmethoden erfolgen. Informationen zu den bedingten Methoden finden Sie in der Arbeit von Stephen Walker [1]. Informationen zu Randmethoden finden Sie in Radford Neal Paper [2].

Für den Konzentrationsparameter schlägt Mike West [3] eine Methode zur Inferenz in der MCMC-Prozedur vor, die eine vollständige bedingte Verteilung für . Wenn Sie sich entscheiden, die Konzentration in der MCMC-Prozedur nicht zu aktualisieren , sollten Sie berücksichtigen, dass bei Auswahl eines großen Werts die Anzahl der eindeutigen Werte, die aus dem Dirichlet-Prozess gezogen werden, größer ist als die Anzahl der eindeutigen Werte, wenn eine kleine Zahl für wird verwendet. $\alpha$ $\alpha$ $\alpha$ $\alpha$

[1] SG, Walker (2006). Sampling des Dirichlet-Mixture-Modells mit Slices. Kommunikation in der Statik (Simulation und Berechnung).

[2] RM, Neal (2000), Markov-Ketten-Monte-Carlo-Methoden für Dirichlet-Prozessmischungsmodelle. Zeitschrift für Computer- und Grafikstatistik. Band 9, Nr. 2, S. 249-265

[3] M., West (1992). Hyperparameterschätzung in Dirichlet-Prozessmischungsmodellen. Technischer Bericht

— Christos
quelle

-1

Gibt es einen Ansatz, um F basierend auf meinen neuen Messwerten zu aktualisieren?

Genau dafür gibt es etwas. Es ist so ziemlich die Hauptidee der Bayes'schen Folgerung.

$p(\theta | y) \propto p(y|\theta)p(\theta)$

$p(\theta)$ $F$ $p(y|\theta)$ $\theta$

$p(\theta)$

— rcorty
quelle

F

$F$

X_{1}, \dots, X_{n} \overset{i i d}{\sim} F

$X_1, \ldots, X_n \stackrel{iid}{\sim} F$

F

$F$

L (F) = \prod_{i = 1}^{N} {\frac{d F}{d x} |}_{x = x_{i}}

$L(F) = \prod_{i=1}^N \left.\frac{dF}{dx}\right|_{x = x_i}$

F

$F$