Was ist der Grund, warum eine Wahrscheinlichkeitsfunktion kein PDF ist (Wahrscheinlichkeitsdichtefunktion)?
Was ist der Grund, warum eine Wahrscheinlichkeitsfunktion kein PDF ist (Wahrscheinlichkeitsdichtefunktion)?
Antworten:
Wir beginnen mit zwei Definitionen:
Eine Wahrscheinlichkeitsdichtefunktion (pdf) ist eine nicht negative Funktion, die zu integriert wird .
Die Wahrscheinlichkeit ist definiert als die gemeinsame Dichte der beobachteten Daten als Funktion des Parameters. Wie jedoch aus dem Verweis auf Lehmann von @whuber in einem Kommentar unten hervorgeht, ist die Wahrscheinlichkeitsfunktion nur eine Funktion des Parameters, wobei die Daten als feste Konstante gehalten werden. Die Tatsache, dass es sich um eine Dichte in Abhängigkeit von den Daten handelt, spielt also keine Rolle.
Daher ist die Likelihood-Funktion kein PDF, da ihr Integral in Bezug auf den Parameter nicht unbedingt 1 entspricht (und möglicherweise überhaupt nicht integrierbar ist, wie in einem anderen Kommentar von @whuber ausgeführt).
Um dies zu sehen, verwenden wir ein einfaches Beispiel. Angenommen , Sie haben eine einzige Beobachtung, , von einer B e r n o u l l i ( θ ) Verteilung. Dann ist die Wahrscheinlichkeitsfunktion
Es ist eine Tatsache , dass . Insbesondere wenn x = 1 ist , dann ist L ( & thgr ; ) = & thgr ;, also ≤ 1 0
und eine ähnliche Berechnung gilt, wenn . Daher ist L ( θ ) keine Dichtefunktion sein.
Noch wichtiger als dieses technische Beispiel, das zeigt, warum die Wahrscheinlichkeit keine Wahrscheinlichkeitsdichte ist, ist der Hinweis, dass die Wahrscheinlichkeit nicht die Wahrscheinlichkeit ist, dass der Parameterwert korrekt ist, oder etwas Ähnliches - es ist die Wahrscheinlichkeit (Dichte) der Daten Angesichts des Parameterwertes ist das eine ganz andere Sache. Daher sollte man nicht erwarten, dass sich die Wahrscheinlichkeitsfunktion wie eine Wahrscheinlichkeitsdichte verhält.
Okay, aber die Wahrscheinlichkeitsfunktion ist die gemeinsame Wahrscheinlichkeitsdichte für die beobachteten Daten bei gegebenem Parameter . Als solches kann es normalisiert werden, um eine Wahrscheinlichkeitsdichtefunktion zu bilden. Es ist also im Wesentlichen wie ein PDF.
Ich bin kein Statistiker, aber ich verstehe, dass die Wahrscheinlichkeitsfunktion selbst in Bezug auf die Parameter kein PDF ist, sie jedoch nach Bayes-Regel in direktem Zusammenhang mit diesem PDF steht. Die Wahrscheinlichkeitsfunktion P (X | Theta) und die hintere Verteilung f (Theta | X) sind eng miteinander verbunden. überhaupt nicht "eine ganz andere Sache".
, wo , wenn f (x, θ) ist eine Wahrscheinlichkeitsfunktion, dann die Wahrscheinlichkeit ist immer kleiner als eins, aber wenn f (x; & thgr;) eine Wahrscheinlichkeitsdichtefunktion ist, dann kann die Wahrscheinlichkeit größer als eins sein, da Dichten größer als eins sein können.
Sehen wir uns die ursprüngliche Form an:
Zum Beispiel kenne ich den Mittelwert und die Standardvarianz einer Gaußschen Verteilung nicht und möchte sie durch Training mit vielen Proben aus dieser Verteilung erhalten. Ich initialisiere zuerst den Mittelwert und die Standardvarianz zufällig (was eine Gaußsche Verteilung definiert), nehme dann eine Stichprobe und passe sie in die geschätzte Verteilung an, und ich kann eine Wahrscheinlichkeit aus der geschätzten Verteilung erhalten. Dann setze ich die Stichprobe fort und erhalte viele, viele Wahrscheinlichkeiten. Dann multipliziere ich diese Wahrscheinlichkeiten und erhalte eine Punktzahl. Diese Art von Punktzahl ist die Wahrscheinlichkeit. Es kann kaum eine Wahrscheinlichkeit für ein bestimmtes PDF sein.