Wird der Missbrauch durch die maschinelle Lerngemeinschaft "bedingt" und "parametrisiert durch"?

Angenommen, ist abhängig von . Genau genommen $X$ $\alpha$

wenn und beide Zufallsvariablen sind, könnten wir schreiben ; $X$ $\alpha$ $p(X\mid\alpha)$
Wenn jedoch $X$ eine Zufallsvariable und $\alpha$ ein Parameter ist, müssen wir schreiben $p(X; \alpha)$ .

Ich stelle mehrmals fest, dass die Community für maschinelles Lernen die Unterschiede zu ignorieren scheint und die Begriffe missbraucht.

Zum Beispiel im berühmten LDA-Modell, bei dem $\alpha$ der Dirichlet-Parameter anstelle einer Zufallsvariablen ist.

Bildbeschreibung hier eingeben

Sollte es nicht ? Ich sehe viele Leute, einschließlich der ursprünglichen Autoren des LDA-Papiers, die es als schreiben . $p(\theta;\alpha)$ $p(\theta\mid\alpha)$

machine-learning terminology

— Spielende Geschwister
quelle

Mathematisch gesehen können Sie immer an eine Konstante konditionieren, da dies ein Grenzfall für Zufallsvariablen ist. Aus Bayes-Sicht werden alle Unbekannten als Zufallsvariablen behandelt, daher ist es sinnvoll, die Konditionierungsnotation überall zu verwenden.

— Xi'an,

@ Xi'an Ich verstehe Ihren Punkt auf "Konditionierung auf einer Konstanten". Aber stellen Sie sich vor, ich ziehe

aus einer kategorialen Verteilung von Parameter

, dh

. Kann ich die Verteilung als

schreiben ? Das kommt mir komisch vor, da man immer ein festes

sieht für mich angenehmer aus.

X

$X$

θ

$\theta$

X \sim C a t (θ)

$X\sim Cat(\theta)$

p (X ∣ θ)

$p(X\mid\theta)$

θ

$\theta$

p (X; θ)

$p(X;\theta)$

— Sibbs Gambling

Ich sehe das Problem nicht, wenn ich in diesem speziellen Fall

schreibe . Erneut ebnet die Verwendung von bedingten Notationen die Möglichkeit, vorherige Verteilungen für jeden unbekannten Parameter einzuführen.

p (X ∣ θ)

$p(X\mid\theta)$

— Xi'an

Ich denke, das ist mehr über Bayesian / Nicht-Bayesian-Statistiken als über maschinelles Lernen vs. Statistik.

In der Bayes'schen Statistik werden Parameter ebenfalls als Zufallsvariablen modelliert. Wenn Sie eine gemeinsame Verteilung für , eine bedingte Verteilung, unabhängig von der physikalischen Interpretation von und . Wenn man nur feste berücksichtigt oder auf andere Weise keine Wahrscheinlichkeitsverteilung über legt , sind die Berechnungen mit genau die gleichen wie mit mit $X,\alpha$ $p(X \mid \alpha)$ $X$ $\alpha$ $\alpha$ $\alpha$ $p(X; \alpha)$ $p(X \mid \alpha)$ . Darüber hinaus kann man jederzeit entscheiden, das Modell mit festen Werten von auf einenWert zu erweitern, bei demeine vorherige Verteilung über . Für mich zumindest scheint es seltsamdass die Notation für die Verteilung-given- an dieser Stelle ändern sollte, weshalb einige Bayesianer bevorzugen auch die Konditionierung Schreibweise zu benutzenwenn man nicht hat (noch?) Gestört alle Parameter als Zufallsvariablen zu definieren . $p(\alpha)$ $\alpha$ $\alpha$ $\alpha$

Argumente dafür, ob man als schreiben kann, wurden auch in Kommentaren von Andrew Gelmans Blog-Post Misunderstanding the value laut . Zum Beispiel war Larry Wasserman der Meinung, dass nicht erlaubt ist, wenn es keine Konditionierung von der Fuge gibt, während Andrew Gelman der gegenteiligen Meinung war. $p(X ; \alpha)$ $p(X \mid \alpha)$ $p$ $\mid$

— Juho Kokkala
quelle