Der Punkt ist, dass manchmal verschiedene Modelle (für die gleichen Daten) zu Wahrscheinlichkeitsfunktionen führen können, die sich durch eine multiplikative Konstante unterscheiden, aber der Informationsgehalt muss eindeutig gleich sein. Ein Beispiel:
Wir modellieren unabhängige Bernoulli-Experimente, die zu Daten mit jeweils einer Bernoulli-Verteilung mit dem (Wahrscheinlichkeits-) Parameter . Dies führt zu der Wahrscheinlichkeitsfunktion
Oder wir können die Daten durch die binomial verteilte Variable , die eine Binomialverteilung hat, die zur Wahrscheinlichkeitsfunktion
die in Abhängigkeit vom unbekannten Parameter proportional zur früheren Wahrscheinlichkeitsfunktion ist . Die beiden Wahrscheinlichkeitsfunktionen enthalten eindeutig die gleichen Informationen und sollten zu den gleichen Schlussfolgerungen führen!nX1,…,Xnp∏i=1npxi(1−p)1−xi
Y=X1+X2+⋯+Xn(ny)py(1−p)n−y
p
Und tatsächlich werden sie per Definition als dieselbe Wahrscheinlichkeitsfunktion betrachtet.
Ein weiterer Gesichtspunkt: Beachten Sie, dass sich solche multiplikativen Konstanten einfach aufheben, wenn die Wahrscheinlichkeitsfunktionen im Bayes-Theorem verwendet werden, wie sie für die Bayes-Analyse benötigt werden! Sie sind also für die bayesianische Folgerung eindeutig irrelevant. Ebenso wird es abgebrochen, wenn die Wahrscheinlichkeitsverhältnisse berechnet werden, wie sie in optimalen Hypothesentests (Neyman-Pearson-Lemma) verwendet werden, und es wird keinen Einfluss auf den Wert der Maximum-Likelihood-Schätzer haben. Wir können also sehen, dass es in vielen Fällen von frequentistischer Folgerung keine Rolle spielt.
Wir können noch von einem anderen Standpunkt aus argumentieren. Die Bernoulli-Wahrscheinlichkeitsfunktion (im Folgenden wird der Begriff "Dichte" verwendet) ist in Wirklichkeit eine Dichte in Bezug auf das Zählmaß, dh das Maß für die nicht negativen ganzen Zahlen mit der Masse eins für jede nicht negative ganze Zahl. Aber wir hätten eine Dichte in Bezug auf ein anderes dominierendes Maß definieren können. In diesem Beispiel wird dies künstlich erscheinen (und ist es), aber in größeren Räumen (Funktionsräumen) ist es wirklich grundlegend! Verwenden wir zur Veranschaulichung die spezifische geometrische Verteilung mit , , und bald. Dann die Dichte der Bernoulli-Verteilung in Bezug aufλλ(0)=1/2n pλ(1)=1/4λ(2)=1/8λist gegeben durch
was bedeutet, dass
Mit diesem neuen, dominierenden Maß wird die Wahrscheinlichkeitsfunktion (mit der Schreibweise von oben) zu
beachte den zusätzlichen Faktor . Wenn also das bei der Definition der Wahrscheinlichkeitsfunktion verwendete dominierende Maß geändert wird, entsteht eine neue multiplikative Konstante, die nicht von dem unbekannten Parameter abhängtfλ(x)=px(1−p)1−x⋅2x+1
P(X=x)=fλ(x)⋅λ(x)
∏i=1npxi(1−p)1−xi2xi+1=py(1−p)n−y2y+n
2y+npund ist eindeutig irrelevant. Auf diese Weise können Sie auch sehen, wie irrelevant multiplikative Konstanten sein müssen. Dieses Argument kann mit Radon-Nikodym-Derivaten verallgemeinert werden (das obige Argument ist ein Beispiel für.)