Was ist der Bedeutungsunterschied zwischen der Notation und P ( z | d , w ), die üblicherweise in vielen Büchern und Veröffentlichungen verwendet werden?
Was ist der Bedeutungsunterschied zwischen der Notation und P ( z | d , w ), die üblicherweise in vielen Büchern und Veröffentlichungen verwendet werden?
Antworten:
Ich glaube, der Ursprung davon ist das Wahrscheinlichkeitsparadigma (obwohl ich die tatsächliche historische Richtigkeit des Folgenden nicht überprüft habe, ist es ein vernünftiger Weg zu verstehen, wie es dazu kam).
Nehmen wir an, Sie hätten in einer Regression eine Verteilung: p (Y | x, beta) Das heißt: die Verteilung von Y, wenn Sie die x- und beta-Werte kennen (vorausgesetzt).
Wenn Sie die Beta-Werte schätzen möchten, möchten Sie die Wahrscheinlichkeit maximieren: L (beta; y, x) = p (Y | x, beta) Im Wesentlichen betrachten Sie jetzt den Ausdruck p (Y | x, beta) als eine Funktion der Beta, aber abgesehen davon gibt es keinen Unterschied (für mathematisch korrekte Ausdrücke, die Sie richtig ableiten können, ist dies eine Notwendigkeit - obwohl in der Praxis niemand stört).
In den Bayes'schen Einstellungen wird der Unterschied zwischen Parametern und anderen Variablen bald kleiner, sodass man anfängt, beide Notationen gemischt zu verwenden.
Im Wesentlichen gibt es also keinen tatsächlichen Unterschied: Beide geben die bedingte Verteilung des Objekts auf der linken Seite und die bedingte Verteilung des Objekts auf der rechten Seite an.
ist die Dichte der Zufallsvariablen X am Punkt x , wobei θ der Parameter der Verteilung ist. f ( x , θ ) ist die gemeinsame Dichte von X und Θ an dem Punkt ( x , θ ) und nur dann sinnvollwenn Θ eine Zufallsvariable ist. f ( x | θ ) ist die bedingte Verteilung von X bei Θ und macht wiederum nur dann Sinn, wenn ist eine Zufallsvariable. Dies wird viel deutlicher, wenn Sie sich näher mit der Bayes'schen Analyse befassen.
ist dasselbe wie , was einfach bedeutet, dass ein fester Parameter ist und die Funktion eine Funktion von . , OTOH, ist ein Element einer Familie (oder Menge) von Funktionen, wobei die Elemente mit indiziert sind. Eine subtile Unterscheidung vielleicht, aber eine wichtige, insb. wenn es Zeit ist, einen unbekannten Parameter auf der Basis bekannter Daten zu schätzen; zu diesem Zeitpunkt sich θ undist festgelegt, was zu der "Wahrscheinlichkeitsfunktion" führt. Die Verwendung von ist unter Statistikern üblicher, während unter Mathematikern.
Obwohl dies nicht immer so war, wird heutzutage im Allgemeinen verwendet, wenn d , w keine Zufallsvariablen sind (was nicht bedeutet, dass sie bekannt sind, was notwendig ist). P ( z | d , w ) gibt die Konditionierung auf Werte von d , w an . Das Konditionieren ist eine Operation mit Zufallsvariablen, und als solche ist die Verwendung dieser Notation, wenn d , w keine Zufallsvariablen sind, verwirrend (und tragischerweise üblich).
Wie @ Nick Sabbe hervorhebt, ist eine gebräuchliche Notation für die Stichprobenverteilung der beobachteten Daten y . Einige Frequentisten verwenden diese Notation, bestehen jedoch darauf, dass Θ keine Zufallsvariable ist, was ein Missbrauch der IMO ist. Aber sie haben dort kein Monopol; Ich habe auch Bayesianer gesehen, die am Ende der Bedingungen feste Hyperparameter angeheftet haben.