Grafische Intuition der Statistik auf einer Mannigfaltigkeit

In diesem Beitrag können Sie die Erklärung lesen:

Modelle werden normalerweise durch Punkte $\theta$ auf einer endlich dimensionalen Mannigfaltigkeit dargestellt.

Über Differentialgeometrie und Statistik von Michael K. Murray und John W. Rice werden diese Konzepte in lesbarer Prosa erklärt, wobei die mathematischen Ausdrücke ignoriert werden. Leider gibt es nur sehr wenige Abbildungen. Gleiches gilt für diesen Beitrag auf MathOverflow.

Ich möchte um Hilfe bei einer visuellen Darstellung bitten, die als Karte oder Motivation für ein formelleres Verständnis des Themas dient.

Was sind die Punkte auf dem Verteiler? Dieses Zitat aus diesem Online-Fund weist anscheinend darauf hin, dass es sich entweder um die Datenpunkte oder um die Verteilungsparameter handeln kann:

Statistiken zu Mannigfaltigkeiten und Informationsgeometrie sind zwei verschiedene Arten, wie Differentialgeometrie auf Statistiken trifft. Während in der Statistik über Mannigfaltigkeiten die Daten auf einer Mannigfaltigkeit liegen, sind die Daten in der Informationsgeometrie in , aber die parametrisierte Familie der interessierenden Wahrscheinlichkeitsdichtefunktionen wird als Mannigfaltigkeit behandelt. Solche Verteiler sind als statistische Verteiler bekannt. $R^n$

Ich habe dieses Diagramm gezeichnet, das von dieser Erklärung des Tangentenraums hier inspiriert ist :

[ Bearbeiten, um den folgenden Kommentar zu : $C^\infty$ ] Auf einer Mannigfaltigkeit ist der Tangentenraum die Menge aller möglichen Ableitungen ("Geschwindigkeiten") an einem Punkt , der mit assoziiert ist jede mögliche Kurve auf dem Verteiler verläuft durchDies kann als ein Satz von Karten von jeder Kurve gesehen werden, die sich durch kreuzt dh definiert als die Zusammensetzung , wobei eine Kurve bezeichnet (Funktion von der realen Linie bis zur Oberfläche des Verteilers $(\mathcal M)$ $p\in \mathcal M$ $(\psi: \mathbb R \to \mathcal M)$ $p.$ $p,$ $C^\infty (t)\to \mathbb R,$ $\left(f \circ \psi \right )'(t)$ $\psi$ $\mathcal M$ ) durch den Punkt laufen und im obigen Diagramm rot dargestellt sind; und eine Testfunktion darstellen. Die „Iso- “ weißen Konturlinien auf demselben Punkt auf der durchgezogenen Linie und umgeben den Punkt . $p,$ $f,$ $f$ $p$

Die Äquivalenz (oder eine der auf die Statistik angewendeten Äquivalenzen) wird hier erörtert und würde sich auf das folgende Zitat beziehen :

Wenn der Parameterraum für eine Exponentialfamilie eine dimensionale offene Menge enthält, wird er als voller Rang bezeichnet. $s$

Eine Exponentialfamilie, die nicht den vollen Rang hat, wird im Allgemeinen als gekrümmte Exponentialfamilie bezeichnet, da der Parameterraum typischerweise eine Kurve in einer Dimension von weniger als $\mathcal R^s$ $s.$

Dies scheint die Interpretation des Diagramms wie folgt zu machen: Die Verteilungsparameter (in diesem Fall der Familien der Exponentialverteilungen) liegen auf der Mannigfaltigkeit. Die Datenpunkte in würden im Fall eines nichtlinearen Optimierungsproblems mit Rangmangel durch die Funktion einer Linie auf dem Verteiler zugeordnet . Dies würde parallel zur Berechnung der Geschwindigkeit in der Physik erfolgen: Suche nach der Ableitung der Funktion entlang des Gradienten der "Iso-f" -Linien (Richtungsableitung in Orange):Die Funktion würde die Rolle der Optimierung der Auswahl eines Verteilungsparameters als Kurve $\mathbb R$ $\psi: \mathbb R \to \mathcal M$ $f$ $\left(f \circ \psi \right)'(t).$ $f: \mathbb M \to \mathbb R$ $\psi$ bewegt sich entlang der Konturlinien von auf dem Verteiler. $f$

HINTERGRUND HINZUGEFÜGTES PERSONAL:

Bemerkenswerterweise glaube ich, dass diese Konzepte nicht unmittelbar mit der Verringerung der nichtlinearen Dimensionalität in ML zusammenhängen. Sie ähneln eher der Informationsgeometrie . Hier ist ein Zitat:

Wichtig ist, dass sich die Statistik über Mannigfaltigkeiten stark vom Lernen mit Mannigfaltigkeiten unterscheidet. Letzteres ist ein Zweig des maschinellen Lernens, bei dem das Ziel darin besteht, eine latente Mannigfaltigkeit aus bewerteten Daten zu lernen . Typischerweise ist die Abmessung des gesuchten latenten Verteilers kleiner als . Der latente Verteiler kann je nach verwendetem Verfahren linear oder nichtlinear sein. $R^n$ $n$

Die folgenden Informationen aus der Statistik über Verteiler mit Anwendungen zur Modellierung von Formverformungen von Oren Freifeld :

Während normalerweise nichtlinear ist, können wir jedem Punkt einen mit bezeichneten Tangentenraum zuordnen . ist ein Vektorraum, dessen Dimension der von . Der Ursprung von liegt bei . Wenn in einen euklidischen Raum eingebettet ist, können wir uns als einen affinen Unterraum so dass: 1) es bei berührt ; 2) Zumindest lokal liegt vollständig auf einer Seite davon. Elemente von TpM werden Tangentenvektoren genannt. $M$ $TpM$ $p \in M$ $TpM$ $M$ $TpM$ $p$ $M$ $TpM$ $M$ $p$ $M$

[...] Auf Mannigfaltigkeiten werden statistische Modelle häufig in Tangentenräumen ausgedrückt.

[...]

[Wir betrachten zwei] Datensätze bestehen aus Punkten in : $M$

$D_L = \{p_1, \cdots , p_{NL}\} \subset M$ ;

$D_S = \{q_1, \cdots , q_{NS}\} \subset M$

Let und repräsentieren zwei, möglicherweise unbekannt, Punkte in . Es wird angenommen, dass die beiden Datensätze die folgenden statistischen Regeln erfüllen: $µ_L$ $µ_S$ $M$

$\{\log_{\mu L} (p_1), \cdots , \log_{\mu L}(p_{NL})\} \subset T_{\mu L}M, \quad \log_{\mu L}(p_i) \overset{\text{i.i.d}}{\sim} \mathscr N(0, \Sigma_L)$ $\{\log_{\mu S} (q_1), \cdots , \log_{\mu S}(q_{NS})\} \subset T_{\mu S}M, \quad \log_{\mu S}(q_i) \overset{\text{i.i.d}}{\sim} \mathscr N(0, \Sigma_S)$

[...]

Mit anderen Worten, wenn (als Tangentenvektoren) im Tangentenraum (zu ) bei , kann es als eine Menge von iid-Abtastwerten aus einem Gaußschen Mittelwert mit Kovarianz . Wenn im Tangentenraum bei , kann dies ebenfalls als eine Menge von iid-Abtastwerten aus einem Gaußschen Mittelwert mit Kovarianz . Dies verallgemeinert den euklidischen Fall. $D_L$ $M$ $\mu_L$ $\Sigma_L$ $D_S$ $\mu_S$ $\Sigma_S$

Unter derselben Referenz finde ich online das nächste (und praktisch einzige) Beispiel für dieses grafische Konzept, nach dem ich frage:

Würde dies darauf hinweisen, dass Daten auf der Oberfläche des Verteilers liegen, ausgedrückt als Tangentenvektoren, und Parameter auf einer kartesischen Ebene abgebildet würden?

— Antoni Parellada
quelle

Was versuchst du hier zu tun? Verteiler zeichnen? Die meisten von ihnen sind zu langweilig zum Zeichnen. Versuchen Sie beispielsweise die Gaußsche Verteilung.

— Aksakal

Normalerweise würde ich mir Parameterräume als Vektorräume vorstellen, z. B.

. Wenn ich an parametrische "Mannigfaltigkeiten" denken würde, wäre das erste, was mir in den Sinn kommt, "Beschränkungssysteme", z. B.

. Warum ist der Raum sonst nicht "vollständig"? (Was definiert die Teilmenge, die die "Mannigfaltigkeit" ist?)

θ \in R^{n}

$\theta\in\mathbb{R}^n$

f (θ) = 0

$f(\theta)=0$

— GeoMatt22

Hoffentlich kommt @whuber mit und geht auf die Kommentare ein, die er im Chat gemacht hat.

— Gung - Reinstate Monica

Die kurze Antwort auf Ihre bearbeitete Frage lautet "Nein". Der Tangentenraum beschreibt die Geschwindigkeiten aller glatten Bahnen im Verteiler. Seine Hauptaufgabe in der Statistik besteht in der Maximierung der Wahrscheinlichkeiten, wobei die Mannigfaltigkeit eine endlich parametrisierte Familie beschreibt. Beim "vielfältigen Lernen" wird eine Mannigfaltigkeit als lokale Annäherung an Daten verwendet - es handelt sich um eine gekrümmte Version des "Spaltenraums" in linearer Regression. Dort ist der Tangentenraum in den umgebenden euklidischen Raum eingebettet . Lokal beschreibt es die "Richtungen" der Daten und sein normales Bündel gibt die "Fehler" -Richtungen an.

— whuber

Ja: Der Kotangensraum

bei

kann als Ableitung von Keimen von Funktionen um

. Der Tangentenraum bei

(also!) Ist einfach sein Dual.

und

mithilfe der Koordinatendiagramme auf

eine Topologie - das heißt, lassen Sie zu, dass zwei Tangentenräume

und

"nahe" sind . Dies reduziert die Definition (und das Problem der Visualisierung) auf die Definition des Tangentenraums

T_{p}^{*} M

$T_p^{*}M$

p

$p$

p

$p$

p

$p$

T^{*} M

$T^{*}M$

T M

$TM$

T_{p} M

$T_pM$

T_{q} M

$T_qM$

M

$M$

T_{x} R^{n}

$T_x\mathbb{R}^n$ . Dies ist die Menge aller Vektoren, die von

. Spivak liefert in Calculus on Manifolds eine klare, elementare Definition dieser Art.

x

$x$

— whuber

Eine Familie von Wahrscheinlichkeitsverteilungen kann als Punkte auf einer Mannigfaltigkeit mit intrinsischen Koordinaten analysiert werden, die den Parametern der Verteilung entsprechen. Die Idee ist , eine Darstellung mit einem falschen Metrik zu vermeiden: Die univariate Gaussians kann als Punkte in der geplottet euklidischen vielfältig wie auf der rechten Seite des Diagramms unten mit dem Mittelwert in dem -Achse und die SD in der in der Achse (positive Hälfte im Fall des Zeichnens der Varianz): $(\Theta)$ $\mathcal N(\mu,\sigma^2),$ $\mathbb R^2$ $x$ $y$

Die Identitätsmatrix (euklidischer Abstand) kann jedoch den Grad der (Dis-) Ähnlichkeit zwischen einzelnen nicht messen : auf den Normalkurven links im obigen Diagramm bei einem Intervall in der Domäne die Fläche ohne Überlappung (dunkelblau) ist für Gaußsche Kurven mit geringerer Varianz größer, auch wenn der Mittelwert festgehalten wird. Tatsächlich ist die einzige Riemannsche Metrik, die für statistische Mannigfaltigkeiten „Sinn macht“, die Fisher-Informationsmetrik . $\mathrm{pdf}$

In Fisher Information Distance: Eine geometrische Ablesung nutzen Costa SI, Santos SA und Strapasson JE die Ähnlichkeit zwischen der Fisher-Informationsmatrix der Gaußschen Verteilungen und der Metrik im Beltrami-Pointcaré-Scheibenmodell , um eine geschlossene Formel abzuleiten.

Der "Nord" -Kegel des Hyperboloids wird zu einer nichteuklidischen Mannigfaltigkeit, in der jeder Punkt einem Mittelwert und einer Standardabweichung (Parameterraum) und dem kürzesten Abstand zwischen z. B. und im folgenden Diagramm ist eine geodätische Kurve, die als hyperparabolische Gerade auf die Äquatorialebene projiziert wird (Diagrammkarte) und die Messung von Abständen zwischen durch einen metrischen Tensor $x^2 + y^2 - x^2 = -1$ $\mathrm {pdf's,}$ $P$ $Q,$ $\mathrm{pdf's}$ - dieFisher-Informationsmetrik: $g_{\mu\nu}\;(\Theta)\;\mathbf e^\mu\otimes \mathbf e^\nu$

D (P (x; θ_{1}), Q (x; θ_{2})) = min_{θ (t) | θ (0) = θ_{1}, θ (1) = θ_{2}} \int_{0}^{1} \sqrt{{(\frac{d θ}{d t})}^{⊤} I (θ) \frac{d θ}{d t} d t}

$D\,\left ( P(x;\theta_1)\,,\,Q(x;\theta_2) \right)=\min_{\theta(t)\,|\,\theta(0)=\theta_1\;,\;\theta(1)=\theta_2}\;\int_0^1 \; \sqrt{\left(\frac{\mathrm d\theta}{\mathrm dt} \right)^\top\;I(\theta)\frac{\mathrm d \theta}{\mathrm dt}dt}$

mit

I (θ) = \frac{1}{σ^{2}} [\begin{matrix} 1 & 0 \\ 0 & 2 \end{matrix}]

$I(\theta) = \frac{1}{\sigma^2}\begin{bmatrix}1&0\\0&2 \end{bmatrix}$

Die Kullback-Leibler-Divergenz ist eng verwandt, obwohl die Geometrie und die zugehörige Metrik fehlen.

Und es ist interessant festzustellen, dass die Fisher-Informationsmatrix als das Hessische der Shannon-Entropie interpretiert werden kann :

g_{i j} (θ) = - E [\frac{\partial^{2} \log p (x; θ)}{\partial θ_{i} \partial θ_{j}}] = \frac{\partial^{2} H (p)}{\partial θ_{i} \partial θ_{j}}

$g_{ij}(\theta)=-E\left[ \frac{\partial^2\log p(x;\theta)}{\partial \theta_i \partial\theta_j} \right]=\frac{\partial^2 H(p)}{\partial \theta_i \partial \theta_j}$

mit

H (p) = - \int p (x; θ) \log p (x; θ) d x .

$H(p) = -\int p(x;\theta)\,\log p(x;\theta) \mathrm dx.$

Dieses Beispiel ähnelt im Konzept der allgemeineren stereografischen Erdkarte .

Die mehrdimensionale Einbettung oder das vielfältige Lernen von ML wird hier nicht angesprochen.

— Antoni Parellada
quelle

$\mu,\sigma^2$ $\mu\in R$ $\sigma^2>0$ $R^2$

— Aksakal
quelle

Ich denke, ich dachte, dass eine "Mannigfaltigkeit" eine geringere Dimension haben soll als ihr Einbettungsraum? Ein halber Raum würde also nicht zählen?

— GeoMatt22

Mit Gauß ist es nicht einmal eine Mannigfaltigkeit, richtig. Sie brauchen Einschränkungen, damit es zu einer Art Ebene oder Linie wird

— Aksakal

Ich versuche die Implikationen Ihrer Antwort zu verstehen ... Meinen Sie " eine Geometrieverbindung"? Außerdem habe ich gerade diesen verwandten Beitrag auf MathOverflow gefunden .

— Antoni Parellada

Es wird interessanter mit einer geeigneten Metrik ... wie der Fisher-Rao-Metrik und wird dann zum hyperbolischen Poincare- Halbplatz en.wikipedia.org/wiki/Poincar%C3%A9_half-plane_model

— mic

R^{2}

$\mathbb{R}^2$