Welche Bedeutung hat die Darstellung des Simplex als Dreiecksfläche in der Dirichlet-Verteilung?


9

Ich lese aus einem Buch, in dem die Dirchilet-Distribution vorgestellt wird, und präsentiere dann Zahlen darüber. Aber ich konnte diese Zahlen nicht wirklich verstehen. Ich habe die Figur hier unten angehängt. Was ich nicht verstehe, sind die Bedeutungen der Dreiecke.

Wenn Sie eine Funktion von 2 Variablen zeichnen möchten, nehmen Sie normalerweise den Wert von var1 und va2 und zeichnen dann den Wert des Funktionswerts dieser beiden Variablen ..., was eine Visualisierung in einer 3D-Dimension ergibt. Hier gibt es jedoch 3 Dimensionen und einen weiteren Wert für den Funktionswert, sodass eine Visualisierung im 4D-Raum möglich ist. Ich kann diese Zahlen nicht verstehen!

Ich hoffe jemand kann sie bitte klären!

BEARBEITEN: Folgendes verstehe ich aus Abbildung 2.14a nicht. Wir haben also aus K = 3 Dirichlet eine Probe Theta (die im Grunde ein Vektor ist) gezogen, das heißt: Theta = [Theta1, Theta2, Theta3]. Die Dreiecksdiagramme [Theta1, Theta2, Theta3]. Der Abstand vom Ursprung zu jedem Theta_i ist der Wert von Theta_i. Dann setzte es für jedes Theta_i einen Scheitelpunkt und verband alle drei Scheitelpunkte und machte ein Dreieck. Ich weiß, wenn ich [theta1, theta2, theta3] in dir (theta | a) stecke, bekomme ich eine Zahl, die die gemeinsame Wahrscheinlichkeit des Vektors Theta ist. Ich verstehe auch, dass die Wahrscheinlichkeit für kontinuierliche Zufallsvariablen ein Maß für eine Fläche ist. Aber hier haben wir 3 Dimensionen, so dass die gemeinsame Wahrscheinlichkeit das Maß für das Volumen des Raums von der rosa Ebene und unter ... dh der Pyramide ist. Jetzt verstehe ich nicht, welche Rolle das Dreieck hier spielt.

Geben Sie hier die Bildbeschreibung ein


2
Ich schlage vor, Sie beginnen mit der Beta-Distribution und arbeiten von dort aus. Das Dirichlet für 3 ist "nur" eine logische Erweiterung der Beta, die das Dirichlet für 2 ist.
Andris Birkmanis

Überprüfen Sie diesen Thread für ein Beispiel: stats.stackexchange.com/questions/244917/…
Tim

Es kann hilfreich sein zu glauben, dass eine Beta-Verteilung in 2D angezeigt wird (x-Achse repräsentiert das {0,1} -Binärergebnis und die y-Achse repräsentiert die Wahrscheinlichkeit), sodass ein ternäres Ergebnis die zusätzliche Dimension benötigt, oder?
George

Antworten:


4

Ich verstehe nicht, welche Rolle das Dreieck hier spielt. Was versucht es zu kommunizieren oder zu visualisieren?

Alle Punkte im Dreieck müssen die beiden Bedingungen erfüllen: zwischen Null und Eins in jeder Dimension ( ) und alle summieren sich zu eins ( ).θ 0 + θ 1 + θ 2 = 10θ1θ0+θ1+θ2=1

Ich habe es schließlich so verstanden:

Zahl

Also zeigt (a) einen 3D-Raum mit als Koordinaten. Sie liegen nur zwischen 0 und 1.θ1,2,3

In (b) ist ein Dreieck gezeigt, dies ist unser Simplex.

(c) zeigt zwei Beispielpunkte, die auf dem Simplex "liegen", die auch das zweite Kriterium erfüllen (summiert sich zu einem).

(d) zeigt einen anderen Beispielpunkt auf dem Simplex, die gleichen Einschränkungen gelten

In (e) habe ich versucht, eine Projektion des Simplex auf ein 2D-Dreieck mit allen zuvor gezeigten Beispielpunkten zu zeigen.

Hoffe es macht jetzt mehr Sinn :)


2
Ein tolles Bild. Ist es deins? Wenn nein, können Sie bitte eine Referenz und deren Quelle angeben?
Tim

1
Vielen Dank. Es ist meins (gezeichnet mit Inkscape), ich kann die SVG bei Bedarf bereitstellen ...
John Doe

2

Grafik 2.14 (a) zeigt eine Ebene, die aus drei Eckpunkten auf jeder Achse besteht. Der Abstand eines Scheitelpunkts vom Ursprung beträgt , was einer der Klassen . Der Bereich, der von der rosa Ebene und den Ebenen der Achsen umschlossen ist, ist die Wahrscheinlichkeit von (Vektor) k = 3 θθik=3θ. Angenommen, Sie neigen diese Ebene so, dass Sie eine Pyramide mit der rosa Ebene, der dem Leser am nächsten gelegenen Fläche, flach auf der Seite platziert haben. Unterdrücken Sie dann die dritte Dimension, die auf der Seite "herausspringt", und färben Sie stattdessen das Dreieck so, dass der Bereich mit höherer Dichte mit einem längeren Abstand von der Basis zu einer Oberfläche roter ist. Das zeigen die Grafiken 2.14 (b) und 2.14 (c). Je stärker das Rot in der Nähe eines Scheitelpunkts konzentriert ist, desto wahrscheinlicher ist die diesem Scheitelpunkt zugeordnete Klasse. Wenn sich der rote Bereich nicht in der Nähe eines Scheitelpunkts befindet, ist es ebenfalls nicht besonders wahrscheinlich, dass ein Ereignis eine höhere Wahrscheinlichkeit für eine Mitgliedschaft in einer der Klassen aufweist.

Diese Pyramide ist jedoch nur als eine einzige Realisierung der Dirichlet-Verteilung sinnvoll. Wenn Sie erneut aus derselben Verteilung zeichnen, erhalten Sie möglicherweise eine andere Pyramide mit unterschiedlichen Längen für jeden der Eckpunkte. Der Hauptunterschied zwischen (a) und (b) / (c) besteht darin, dass (a) die Wahrscheinlichkeit einer Ziehung von Vektor grafisch anzeigt . Die Diagramme (b) und (c) zeigen die Wahrscheinlichkeitsdichte für Werte im Simplex dh sie versuchen, die Wahrscheinlichkeitsdichtefunktion für alle Werte darzustellenθ θ k = 3 θ θ Dir ( α )θθθk=3θin der Unterstützung. Eine Möglichkeit, über (b) und (c) nachzudenken, besteht darin, einen Punkt mit zusätzlicher roter Farbe entsprechend der durchschnittlichen Höhe zwischen der flachen rosa Ebene und der Oberfläche der Pyramide zu erhalten, gemittelt über viele Zeichnungen von .θDir(α)


Einige Punkte sind noch nicht klar. Vielleicht wegen meines schwachen Englisch. "Der Bereich, der von der rosa Ebene und den Ebenen der Achsen umschlossen ist, ist die Dichte." Ist das der leere Raum der Pyramide unter der rosa Ebene? Auch "Dichte"? Was meinen Sie? Ich verstehe, dass dir (x1, x2, x3) ein Wert ist. Wie kommt die Dichte hier in den Graphen?
Jack Twain

Ja, zwischen der rosa Ebene und den Ebenen, die durch die schwarzen Linien in 2.14 (a) gebildet werden, befindet sich der Raum der Pyramide, den ich beschreiben wollte. Entschuldigung für die Verwirrung!
Sycorax sagt Reinstate Monica

Ich werde meinen Beitrag bearbeiten, um weiter zu erklären, was noch nicht klar ist
Jack Twain

Die Sache ist, dass die rosa Region genau die Unterstützung ist, die im Buch beschrieben wird. da theta_k <= 1 und summe (theta_k) = 1. Sobald Sie sich das vorstellen, ist user777 völlig richtig.
Scratch

@ user777 Ich habe gerade eine Bearbeitung des Beitrags vorgenommen
Jack Twain
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.