Gibt es einen Unterschied zwischen Frequentist und Bayesian in der Definition der Wahrscheinlichkeit?


21

Einige Quellen sagen, dass die Wahrscheinlichkeitsfunktion keine bedingte Wahrscheinlichkeit ist, andere sagen, dass dies der Fall ist. Das ist sehr verwirrend für mich.

Nach den meisten Quellen, die ich gesehen habe, sollte die Wahrscheinlichkeit einer Verteilung mit dem Parameter ein Produkt von Wahrscheinlichkeitsmassenfunktionen sein, wenn Stichproben von :n x iθnxi

L(θ)=L(x1,x2,...,xn;θ)=i=1np(xi;θ)

Zum Beispiel verwenden wir in der logistischen Regression einen Optimierungsalgorithmus, um die Wahrscheinlichkeitsfunktion (Maximum Likelihood Estimation) zu maximieren und die optimalen Parameter und damit das endgültige LR-Modell zu erhalten. Angesichts der Trainingsmuster, von denen wir annehmen, dass sie unabhängig voneinander sind, möchten wir das Produkt der Wahrscheinlichkeiten (oder der gemeinsamen Wahrscheinlichkeitsmassenfunktionen) maximieren. Das scheint mir ziemlich offensichtlich zu sein.n

Entsprechend der Beziehung zwischen: Wahrscheinlichkeit, bedingter Wahrscheinlichkeit und Ausfallrate ist "Wahrscheinlichkeit keine Wahrscheinlichkeit und keine bedingte Wahrscheinlichkeit". Es wird auch erwähnt, "Wahrscheinlichkeit ist eine bedingte Wahrscheinlichkeit nur im Bayes'schen Verständnis der Wahrscheinlichkeit, dh wenn Sie annehmen, dass eine Zufallsvariable ist."θ

Ich las über die verschiedenen Perspektiven der Behandlung eines Lernproblems zwischen Frequentist und Bayesian.

Laut einer Quelle haben wir für die Bayes'sche Folgerung a priori , die Wahrscheinlichkeit , und wir wollen das posteriore unter Verwendung des Bayes'schen Theorems erhalten:P ( X | θ ) P ( θ | X )P(θ)P(X|θ)P(θ|X)

P(θ|X)=P(X|θ)×P(θ)P(X)

Bayesian Inference ist mir nicht vertraut. Wie kommt es, dass das die Verteilung der beobachteten Daten abhängig von ihren Parametern ist, auch als Wahrscheinlichkeit bezeichnet wird? In Wikipedia heißt es manchmal, es sei . Was bedeutet das?P(X|θ)L(θ|X)=p(X|θ)

Gibt es einen Unterschied zwischen den Definitionen von Frequentist und Bayesian bezüglich der Wahrscheinlichkeit?

Vielen Dank.


BEARBEITEN:

Es gibt verschiedene Arten der Interpretation des Bayes'schen Theorems - Bayes'sche Interpretation und der häufigen Interpretation (siehe: Bayes'schen Theorem - Wikipedia ).


2
Zwei Schlüsseleigenschaften der Wahrscheinlichkeit sind: (a) dass es eine Funktion von für ein bestimmtes und nicht umgekehrt, und (b) dass es nur bis zu einer positiven Proportionalitätskonstante bekannt ist. Es ist keine Wahrscheinlichkeit (bedingt oder anderweitig), da es nicht erforderlich ist, über alles zu summieren oder zu integrierenθX1θ
Henry

Antworten:


24

Es gibt keinen Unterschied in der Definition - in beiden Fällen ist die Wahrscheinlichkeitsfunktion eine Funktion des Parameters, die proportional zur Abtastdichte ist. Genau genommen brauchen wir nicht, dass die Wahrscheinlichkeit gleich der Abtastdichte ist; es muss nur proportional sein, was das Entfernen multiplikativer Teile ermöglicht, die nicht von den Parametern abhängen.

Während die Abtastdichte als eine Funktion der Daten interpretiert wird, abhängig von einem spezifizierten Wert des Parameters, wird die Wahrscheinlichkeitsfunktion als eine Funktion des Parameters für einen festen Datenvektor interpretiert. Im Standardfall von IID-Daten haben Sie also:

Lx(θ)i=1np(xi|θ).

In der Bayes'schen Statistik drücken wir den Bayes'schen Satz gewöhnlich in seiner einfachsten Form aus als:

π(θ|x)π(θ)Lx(θ).

Dieser Ausdruck für Bayes 'Theorem betont, dass beide seiner multilikativen Elemente Funktionen des Parameters sind, der für die hintere Dichte von Interesse ist. (Dieses Proportionalitätsergebnis definiert die Regel vollständig, da der Posterior eine Dichte ist und es daher eine eindeutige Multiplikationskonstante gibt, die die Integration zu einer ermöglicht.) Wie Sie in Ihrem Update hervorheben, weisen die Bayes'sche und die frequentistische Philosophie unterschiedliche Interpretationsstrukturen auf. Innerhalb des frequentistischen Paradigmas wird der Parameter im Allgemeinen als "feste Konstante" behandelt und wird daher nicht als Wahrscheinlichkeitsmaß angegeben. Frequentisten lehnen es daher ab, dem Parameter eine frühere oder spätere Verteilung zuzuweisen (für weitere Erläuterungen zu diesen philosophischen und interpretativen Unterschieden siehe z. B. O'Neill 2009 ).


14

Die Likelihood - Funktion definiert , unabhängig ausgewählt ist aus oder vor - dem statistischen Paradigma , das für die Schlußfolgerung verwendet wird, als eine Funktion, L ( θ ; x ) (oder L ( θ | x ) ), des Parameter θ , Funktion , die davon abhängt , - oder wird indiziert durch - die Beobachtung (en) x, die für diese Schlussfolgerung verfügbar sind. Und auch implizit abhängig von der Familie der Wahrscheinlichkeitsmodelle, die zur Darstellung der Variabilität oder Zufälligkeit in den Daten ausgewählt wurden. Für einen gegebenen Wert des Paares ( θ ,L(θ;x)L(θ|x)θx ist der Wert dieser Funktion genauidentisch mit dem Wert der Dichte des Modells bei x, wenn er mit dem Parameter θ indiziert wird. Was oft grob als "Wahrscheinlichkeit der Daten" übersetzt wird.(θ,x)xθ

Um mehr maßgebliche und historische Quellen als eine frühere Antwort in diesem Forum zu zitieren ,

"Wir können die Wahrscheinlichkeit des Auftretens beobachtbarer Mengen ... in Bezug auf alle Hypothesen diskutieren, die zur Erklärung dieser Beobachtungen vorgeschlagen werden könnten. Wir können nichts über die Wahrscheinlichkeit von Hypothesen wissen ... [Wir] können die Wahrscheinlichkeit bestimmen von Hypothesen ... durch Berechnung aus Beobachtungen: ... von der Wahrscheinlichkeit ... einer beobachtbaren Größe zu sprechen, hat keine Bedeutung. " RA Fisher, Über den wahrscheinlichen Fehler eines aus einer kleinen Stichprobe abgeleiteten Korrelationskoeffizienten . Metron 1, 1921, S. 25

und

"Was wir aus einer Stichprobe herausfinden können, ist die Wahrscheinlichkeit eines bestimmten Wertes von r, wenn wir die Wahrscheinlichkeit als eine Größe definieren, die proportional zur Wahrscheinlichkeit ist, dass aus einer Population mit dem bestimmten Wert von r eine Stichprobe mit dem beobachteten Wert von r stammt sollte erhalten werden. " RA Fisher, Über den wahrscheinlichen Fehler eines aus einer kleinen Stichprobe abgeleiteten Korrelationskoeffizienten . Metron 1, 1921, S. 24

das erwähnt eine Verhältnismäßigkeit, die Jeffreys (und ich) überflüssig finden:

"... Wahrscheinlichkeit, ein bequemer Begriff, der von Professor RA Fisher eingeführt wurde, obwohl er in seiner Verwendung manchmal mit einem konstanten Faktor multipliziert wird. Dies ist die Wahrscheinlichkeit, dass die Beobachtungen die ursprünglichen Informationen und die in Rede stehende Hypothese enthalten." H. Jeffreys, Wahrscheinlichkeitstheorie , 1939, S.28

Um nur einen Satz aus dem hervorragenden historischen Beitrag von John Aldrich (Statistical Science, 1997) zu zitieren :

"Fisher (1921, S. 24) hat das, was er 1912 über die inverse Wahrscheinlichkeit geschrieben hatte, neu formuliert und dabei zwischen den mathematischen Operationen unterschieden, die mit Wahrscheinlichkeitsdichten und -wahrscheinlichkeiten durchgeführt werden können: Wahrscheinlichkeit ist kein '' differenzielles Element '', sie kann nicht integriert werden . " J. Aldrich, RA Fisher und das Bilden der maximalen Wahrscheinlichkeit 1912 - 1922 , 1997 , S.9

xθθxθθθπ()XxL(θ|)θ(θ,x)

π(θ)×L(θ|x)
θθx
π(θ|x)π(θ)×L(θ|x)
posteriorprior×likelihood

Hinweis: Ich finde die Unterscheidung in der Einleitung der Wikipedia-Seite über Wahrscheinlichkeitsfunktionen zwischen frequentistischen und bayesianischen Wahrscheinlichkeiten verwirrend und unnötig oder einfach falsch, da die große Mehrheit der gegenwärtigen bayesianischen Statistiker die Wahrscheinlichkeit nicht als Ersatz für die posteriore Wahrscheinlichkeit verwendet. In ähnlicher Weise klingt der "Unterschied", auf den auf der Wikipedia-Seite über das Bayes-Theorem hingewiesen wurde, verwirrender als alles andere, da dieses Theorem eine Wahrscheinlichkeitsaussage über einen Wechsel der Konditionierung ist, unabhängig vom Paradigma oder von der Bedeutung einer Wahrscheinlichkeitsaussage. ( Meiner Meinung nach ist es eher eine Definition als ein Satz!)


1

Als kleiner Nachtrag:

Der Name "Wahrscheinlichkeit" ist völlig irreführend, da es sehr viele verschiedene Bedeutungen gibt. Nicht nur die "normale Sprache", sondern auch in der Statistik. Ich kann mir mindestens drei verschiedene, aber auch verwandte Ausdrücke vorstellen, die alle Likelihood heißen. sogar in Lehrbüchern.

Das heißt, wenn man die multiplikative Definition von Wahrscheinlichkeit nimmt, gibt es nichts, was sie in irgendeine Art von Wahrscheinlichkeit im Sinne ihrer (z. B. axiomatischen) Definition verwandelt. Es ist eine reelle Zahl. Sie können eine Menge Dinge tun, um eine Wahrscheinlichkeit zu berechnen oder in Beziehung zu setzen (Verhältnisse nehmen, Prioritäten und Posterioren berechnen usw.) - aber an sich hat es keine Bedeutung in Bezug auf die Wahrscheinlichkeit.

Die Antwort wurde durch die viel informativere und umfassendere Antwort von Xi'an mehr oder weniger überholt. Aber auf Anfrage einige Lehrbuchdefinitionen von Likelihood:

  • L(x;θ)
  • θ
  • das Verhältnis der Wahrscheinlichkeitswerte für verschiedene Prioritäten (zB in einer Klassifikationsaufgabe) ... und darüber hinaus die verschiedenen Bedeutungen, die man versuchen kann, der (ab) Verwendung der vorgenannten Elemente zuzuschreiben.

1
Dies wäre eine viel bessere Antwort, wenn Sie Beispiele / Referenzen hinzufügen könnten, denn ich kann mir mindestens drei verschiedene, aber auch verwandte Ausdrücke vorstellen, die alle Likelihood heißen. sogar in Lehrbüchern .
kjetil b halvorsen
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.