Kann ein Multinomial (1 / n,…, 1 / n) als diskretisiertes Dirichlet (1, .., 1) charakterisiert werden?


24

Diese Frage ist also etwas chaotisch, aber ich werde bunte Grafiken einfügen, um das auszugleichen! Zuerst der Hintergrund, dann die Frage (n).

Hintergrund

Angenommen, Sie haben eine n dimensionale multinomiale Verteilung mit gleichen Wahrscheinlichkeitswerten über die n Kategorien. Sei π=(π1,,πn) die normierten Zählwerte ( c ) aus dieser Verteilung, das heißt:

(c1,,cn)Multinomial(1/n,,1/n)πi=cin

Nun hat die Verteilung über π Unterstützung über den n Implex, jedoch mit diskreten Schritten. Zum Beispiel hat diese Verteilung mit n=3 die folgende Unterstützung (die roten Punkte):

Bildbeschreibung hier eingeben

Eine andere Verteilung mit ähnlicher Unterstützung ist die n dimensionale Dirichlet(1,,1) -Verteilung, dh eine gleichmäßige Verteilung über die Einheit Simplex. Hier sind zum Beispiel zufällige Ziehungen aus einem dreidimensionalen :Dirichlet(1,1,1)

Bildbeschreibung hier eingeben

Nun kam mir die Idee, dass die Distribution vonπ aus der als Zeichnungen aus einem Dirichlet ( 1 , , 1 ) charakterisiert werden kann, die zur diskreten Unterstützung von π diskretisiert werden . Die Diskretisierung, die ich im Sinn hatte (und die gut zu funktionieren scheint), besteht darin, jeden Punkt im Simplex auf den nächsten Punkt abzurunden, der in der Unterstützung von π liegtMultinomial(1/n,,1/n)Dirichlet(1,,1)ππ. Für den 3-dimensionalen Simplex erhalten Sie die folgende Unterteilung, in der Punkte in jedem farbigen Bereich zum nächsten roten Punkt "gerundet" werden sollten:

Bildbeschreibung hier eingeben

Da die Dirichlet-Verteilung gleichmäßig ist, ist die resultierende Dichte / Wahrscheinlichkeit für jeden der Punkte proportional zu der Fläche / dem Volumen, die / das zu jedem Punkt "gerundet" wird. Für die zweidimensionalen und dreidimensionalen Fälle sind diese Wahrscheinlichkeiten:

Bildbeschreibung hier eingeben ( Diese Wahrscheinlichkeiten stammen aus Monte-Carlo-Simulationen )

Zumindest für 2 und 3 Dimensionen scheint die Wahrscheinlichkeitsverteilung, die sich aus der Diskretisierung von auf diese Weise ergibt, dieselbe zu sein wie die Wahrscheinlichkeitsverteilung für π . Das ist das normalisierte Ergebnis eines Multinomials ( 1 / n , , 1 / n )Dirichlet(1,,1)πMultinomial(1/n,,1/n) . Ich habe es auch mit 4-dimensionalen versucht und es scheint dort zu funktionieren.

Fragen)

Meine Hauptfrage lautet also:

Wenn Sie ein einheitliches Dirichlet auf diese Weise diskretisieren, gilt die Beziehung zu einem für weitere Dimensionen? Gilt die Beziehung überhaupt? (Ich habe das nur mit einer Monte-Carlo-Simulation versucht ...)Multinomial(1/n,,1/n)

Weiter frage ich mich:

  • Wenn diese Beziehung zutrifft, ist es ein bekanntes Ergebnis? Und gibt es eine Quelle, die ich dafür anführen kann?
  • Wenn diese Diskretisierung eines einheitlichen Dirichlets nicht diese Beziehung zum Multinom hat. Gibt es eine ähnliche Konstruktion?

Ein wenig Kontext

Mein Grund für diese Frage ist, dass ich die Ähnlichkeit zwischen dem nicht-parametrischen Bootstrap und dem Bayes'schen Bootstrap untersuche, und dann ist dies aufgetaucht. Mir ist auch aufgefallen, dass das Muster auf den farbigen Bereichen des dreidimensionalen Simplex wie ein Voronoi-Diagramm aussieht (und sollte). Eine Möglichkeit (ich hoffe), die Sie sich vorstellen können, ist eine Sequenz aus Pascals Triangle / Simpex ( http://www.math.rutgers.edu/~erowland/pascalssimplices.html ). Wo die Größe der farbigen Bereiche der zweiten Reihe des Pascalschen Dreiecks im 2-D-Fall folgt, der dritten Reihe des Pascalschen Tetraeders im 3-D-Fall und so weiter. Das würde den Zusammenhang mit der Multinomialverteilung erklären, aber hier bin ich wirklich im tiefen Wasser ...


2
Spaß! (Wie immer.) Aber ich vermisse die Sockenverbindung.
Xi'an,

Nun, ich fing an, Socken mit Ersatz zu zeichnen. Aber dann fing ich an über das Bayesianische Boostrap nachzudenken, eins führte zum anderen, und so bin ich hier
Rasmus Bååth

2
@ Xi'an Vielleicht sind es eher Socken als Welpen, die das bayesianische Maskottchen werden sollen?
Tim

Antworten:


14

Diese beiden Verteilungen sind für jeweils n4 .

Notation

Ich werde Ihren Simplex um einen Faktor n neu skalierenn , damit die Gitterpunkte ganzzahlige Koordinaten haben. Dies ändert nichts, ich denke nur, dass es die Notation ein wenig weniger umständlich macht.

Sei der ( n - 1 ) -Implex, gegeben als die konvexe Hülle der Punkte ( n , 0 , , 0 ) , ..., ( 0 , , 0 , n ) in R n . Mit anderen Worten, dies sind die Punkte, an denen alle Koordinaten nicht negativ sind und an denen sich die Koordinaten zu n summieren .S(n1)(n,0,,0)(0,,0,n)Rnn

Sei die Menge der Gitterpunkte , dh die Punkte in S, an denen alle Koordinaten ganzzahlig sind.ΛS

Wenn ein Gitterpunkt ist, lassen wir V P seine Voronoi-Zelle bezeichnen , definiert als die Punkte in S, die (streng) näher an P liegen als an jedem anderen Punkt in ΛPVPSPΛ .

Wir stellen zwei Wahrscheinlichkeitsverteilungen wir setzen können . Eine davon ist die Multinomialverteilung, wobei der Punkt ( a 1 , . . . , A n ) hat die Wahrscheinlichkeit 2 - n n ! / ( a 1 ! a n ! ) . Die anderen werden wir das nennen Dirichlet - Modell , und es weist jedem P & egr ; & Lgr; eine Wahrscheinlichkeit proportional zum Volumen von V P .Λ(a1,...,an)2nn!/(a1!an!)PΛVP

Sehr informelle Begründung

Ich behaupte, dass das Multinomialmodell und das Dirichlet-Modell unterschiedliche Verteilungen auf , wenn n 4 istΛn4 .

Betrachten Sie dazu den Fall und die Punkte A = ( 2 , 2 , 0 , 0 ) und B = ( 3 , 1 , 0 , 0 ) . Ich beanspruche , dass V A und V B deckungsgleich über eine Übersetzung des Vektors ist ( 1 , - 1 , 0 , 0 ) . Dies bedeutet , dass V A und V Bn=4A=(2,2,0,0)B=(3,1,0,0)VAVB(1,1,0,0)VAVBhaben das gleiche Volumen, und damit haben und B im Dirichlet-Modell die gleiche Wahrscheinlichkeit. Andererseits haben sie im multinomialen Modell unterschiedliche Wahrscheinlichkeiten ( 2 - 44 ! / ( 2 ! 2 ! ) Und 2 - 44 ! / 3 !AB244!/(2!2!)244!/3! ), folgt, dass die Verteilungen nicht gleich sein können.

Die Tatsache , dass und V B sind kongruent folgt aus der folgenden plausibel , aber nicht offensichtlich (und etwas vage) claim:VAVB

Plausible Behauptung : Die Form und Größe von wird nur durch die "unmittelbaren Nachbarn" von P beeinflusst (dh diejenigen Punkte in Λ, die sich von P durch einen Vektor unterscheiden, der aussieht wie ( 1 , - 1 , 0 , , 0 ) , wo die 1 und - 1 an anderen Stellen stehen dürfen)VPPΛP(1,1,0,,0)11

Es ist leicht zu sehen , dass die Konfigurationen der „unmittelbaren Nachbarn“ von und B gleich sind, und es folgt, dass V A und V B deckungsgleich sind.ABVAVB

Falls , können wir dasselbe Spiel mit A = ( 2 , 2 , n - 4 , 0 , , 0 ) und B = ( 3 , 1 , n - 4 , 0 , , 0 ) spielen.n5A=(2,2,n4,0,,0)B=(3,1,n4,0,,0) . beispielsweise.

Ich denke nicht, dass diese Behauptung völlig offensichtlich ist, und ich werde es nicht beweisen, anstatt eine etwas andere Strategie. Ich denke jedoch, dass dies eine intuitivere Antwort darauf ist, warum die Verteilungen für n4 .

Strenger Beweis

Nehmen Sie und B wie in der informellen Begründung oben. Wir brauchen nur zu beweisen , dass V A und V B deckungsgleich sind.ABVAVB

Wenn , definieren wir W P wie folgt: W P ist die Menge von Punkten ( x 1 , , x n ) S , für die max 1 i n ist ( a i - p i ) - min 1 i n ( a -P=(p1,,pn)ΛWPWP(x1,,xn)S . (Verdaulicher: Sei v i = a i - p i . W P ist die Menge von Punkten, für die die Differenz zwischen dem höchsten und dem niedrigsten v i kleiner als 1 ist.)max1in(aipi)min1in(aipi)<1vi=aipiWPvi

Wir werden zeigen , dass .VP=WP

Schritt 1

Claim: .VPWP

Dies ist recht einfach: Es sei angenommen , daß nicht in W P . Sei v i = x i - p i und nehme (ohne Verlust der Allgemeinheit) an, dass v 1 = max 1 i n v i , v 2 = min 1 i n v i . v 1 - vX=(x1,,xn)WPvi=xipiv1=max1inviv2=min1invi. Dan i = 1 v i = 0 ist , wissen wir auch, dass v 1 > 0 > v 2 istv1v21i=1nvi=0v1>0>v2

Es sei nun . Da P und X beide nicht negative Koordinaten haben, so tut Q , und es folgt , daß Q S , und so Q & Lgr; . Auf der anderen Seite, d i s t 2 ( X , P ) - d i s t (Q=(p1+1,p21,p3,,pn)PXQQSQΛ . Somit ist X mindestens so nahe an Q wie an P , so dass X V P ist . Dies zeigt (durch Ergänzung), dassdist2(X,P)dist2(X,Q)=v12+v22(1v1)2(1+v2)2=2+2(v1v2)0XQPXVP .VpWP

Schritt 2

Behauptung : Die sind paarweise disjunkt.WP

Angenommen, etwas anderes. Lassen und Q = ( q 1 , ... , q n ) verschiedene Punkte in sein Λ und lassen X W PW Q . Da P und Q verschieden sind und beide in Λ , muss es einen Index i geben, bei dem p iq i + 1 ist , und einen, bei demP=(p1,,pn)Q=(q1,,qn)ΛXWPWQPQΛipiqi+1 . Ohne Verlust der Allgemeinheit nehmen wir an, dass p 1q 1 + 1 und p 2q 2 - 1 sind . Durch Umordnen und Addieren erhalten wir q 1 - p 1 + p 2 - q 22piqi1p1q1+1p2q21q1p1+p2q22 .

Betrachte nun die Zahlen und x 2 . Aus der Tatsache, dass X W P ist , haben wir x 1 - p 1 - ( x 2 - p 2 ) < 1 . In ähnlicher Weise impliziert X W Q , dass x 2 - q 2 - ( x 1 - q 1 ) < 1 ist . Addiert man diese, so erhält man q 1 - px1x2XWPx1p1(x2p2)<1XWQx2q2(x1q1)<1q1p1+p2q2<2

Schritt 3

VPWPWPVPSWP=VPWPVPWP=VP

A=(2,2,n4,0,,0)B=(3,1,n4,0,,0)WAWBSABWA or WB but not the other. But to reach such a part of the boundary of S, we would need to change one coordinate of A or B by at least 1, which would be enough to guarantee to take us out of WA and WB anyway. Thus, even though S does look different from the vantage points A and B, the differences are too far away to be picked up by the definitions of WA and WB, and thus WA and WB are congruent.

It follows then that VA and VB have the same volume, and thus the Dirichlet model assigns them the same probability, even though they have different probabilities in the multinomial model.


Wow, rigorous! Thanks! So the slight correspondence I was hoping for was accidental I guess...
Rasmus Bååth
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.