Warum gibt es in der Beta-Verteilungsdichtefunktion -1?

Die Betaverteilung wird unter zwei Parametern angezeigt (oder hier )

f (x) \propto x α (1 - x) β (1)

$f(x) \propto x^{\alpha} (1-x)^{\beta} \tag{1}$

oder derjenige, der häufiger verwendet wird

f (x) \propto x α - 1 (1 - x) β - 1 (2)

$f(x) \propto x^{\alpha-1} (1-x)^{\beta-1} \tag{2}$

Aber warum steht in der zweiten Formel genau " "? $-1$

Die erste Formulierung scheint intuitiv direkter mit der Binomialverteilung zu korrespondieren

g (k) \propto p k (1 - p) n - k (3)

$g(k) \propto p^k (1-p)^{n-k} \tag{3}$

aber "gesehen" aus der Perspektive des $p$ . Dies wird besonders deutlich im Beta-Binomial-Modell, bei dem als vorherige Anzahl von Erfolgen und als vorherige Anzahl von Fehlern verstanden werden kann. $\alpha$ $\beta$

Warum genau hat die zweite Form an Popularität gewonnen und was ist das Grundprinzip dahinter? Welche Konsequenzen hat die Verwendung einer der Parametrisierungen (z. B. für die Verbindung mit der Binomialverteilung)?

Es wäre großartig, wenn jemand zusätzlich die Ursprünge einer solchen Wahl und die anfänglichen Argumente dafür nennen könnte, aber das ist für mich keine Notwendigkeit.

— Tim
quelle

In dieser Antwort wird ein tiefer Grund angedeutet : gleich Bezug auf das Maß . Das reduziert Ihre Frage auf " warum diese bestimmte Kennzahl "? Das Erkennen, dass diese Kennzahl legt den" richtigen "Weg nahe, diese Verteilungen zu verstehen ist die logistische Transformation anzuwenden: Die " "

f $f$

xα(1−x)β $x^\alpha(1-x)^\beta$

dμ=dx/((x(1−x)) $d\mu=dx/((x(1-x))$

d μ = d (log (x 1 - x))

$d\mu=d\left(\log\left(\frac{x}{1-x}\right)\right)$

−1 $-1$

— -Begriffe

Ich denke, der eigentliche Grund dafür ist der historische - weil er in der Betafunktion, für die die Distribution benannt ist, so erscheint. Was , warum , dass hat in der Kraft, erwarte ich , dass letztlich den Grund verbunden wäre whuber erwähnt (obwohl es nichts historisch hat mit Maße oder sogar Wahrscheinlichkeit zu tun).

−1 $-1$

— Glen_b -Reinstate Monica

@ Glen_b Es ist mehr als historisch: Es gibt tiefe Gründe. Sie sind aufgrund der innigen Verbindung zwischen Beta und Gamma - Funktionen, wodurch die Frage, warum der Exponent in ist und nicht . Das liegt daran, dass eine Gauß-Summe ist . Entsprechend ist es "richtig", als ein Integral eines multiplikativen Homomorphismus ein additives Zeichen gegen das Haar-Maß für die multiplikative Gruppe .

Γ(s)=∫∞0ts−1e−tdt $\Gamma(s)=\int_0^\infty t^{s-1}e^{-t}dt$

s−1 $s-1$

s $s$

Γ $\Gamma$

t→ts $t\to t^s$

t→e−t $t\to e^{-t}$

dt/t $dt/t$

R× $\mathbb{R}^{\times}$

— whuber

@wh Das ist ein guter Grund, warum die Gammafunktion so gewählt werden sollte (und ich habe bereits vorgeschlagen, dass ein solcher Grund oben existiert, und ich akzeptiere eine Art von Argumentation, die ähnlich ist - aber notwendigerweise mit einem anderen Formalismus -, die Euler gewählt hat). entsprechend zwingende Gründe treten bei der Dichte auf; Das bedeutet jedoch nicht, dass dies tatsächlich der Grund für die Wahl war (warum die Form so gewählt wurde, wie sie war), nur, dass dies ein guter Grund ist, dies zu tun. Die Form der Gamma-Funktion ... ctd

— Glen_b - Monica

ctd ... alleine könnte leicht Grund genug sein, diese Form für die Dichte zu wählen und anderen zu folgen. [Oft werden Entscheidungen aus einfacheren Gründen getroffen, als wir sie später identifizieren können, und dann sind oft zwingende Gründe erforderlich, um etwas anderes zu tun. Wissen wir, dass dies der Grund war, warum es ursprünglich gewählt wurde?] - Sie erklären deutlich, dass es einen Grund gibt, warum wir die Dichte so wählen sollten , anstatt warum es so ist . Das beinhaltet eine Abfolge von Menschen, die Entscheidungen treffen (um es so zu gebrauchen und dem Beispiel zu folgen) und ihre Gründe zu der Zeit, die sie gewählt haben.

— Glen_b -Reinstate Monica

Antworten:

Dies ist eine Geschichte über Freiheitsgrade und statistische Parameter und warum es schön ist, dass die beiden eine direkte einfache Verbindung haben.

Historisch gesehen tauchten die " " -Begriffe in Eulers Studien zur Beta-Funktion auf. Er benutzte diese Parametrisierung bis 1763 und Adrien-Marie Legendre auch: Ihre Verwendung begründete die nachfolgende mathematische Konvention. Diese Arbeit datiert alle bekannten statistischen Anwendungen vor. $-1$

Die moderne mathematische Theorie liefert durch die Fülle von Anwendungen in der Analyse, der Zahlentheorie und der Geometrie zahlreiche Hinweise darauf, dass die " " -Terme tatsächlich eine Bedeutung haben. Einige dieser Gründe habe ich in den Kommentaren zur Frage skizziert. $-1$

Interessanter ist, was die "richtige" statistische Parametrisierung sein sollte. Das ist nicht ganz so klar und muss auch nicht mit der mathematischen Konvention übereinstimmen. Es gibt ein riesiges Netz häufig verwendeter, bekannter, miteinander verbundener Familien von Wahrscheinlichkeitsverteilungen. Daher implizieren die Konventionen, die zum Benennen (dh Parametrisieren) einer Familie verwendet werden, normalerweise verwandte Konventionen zum Benennen verwandter Familien. Ändern Sie eine Parametrierung und Sie möchten sie alle ändern. Wir könnten diese Beziehungen daher auf Hinweise untersuchen.

Nur wenige Menschen stimmen nicht darin überein, dass die wichtigsten Verbreitungsfamilien aus der Familie Normal stammen. Es sei daran erinnert, dass eine Zufallsvariable als "normalverteilt" bezeichnet wird, wenn eine Wahrscheinlichkeitsdichte proportional zu . Bei und soll eine Standardnormalverteilung haben . $X$ $(X-\mu)/\sigma$ $f(x)$ $\exp(-x^2/2)$ $\sigma=1$ $\mu=0$ $X$

Viele Datensätze werden mit relativ einfachen Statistiken untersucht, bei denen rationale Kombinationen der Daten und niedrige Potenzen (typischerweise Quadrate) verwendet werden. Wenn diese Daten als Zufallsstichproben aus einer Normalverteilung modelliert werden - so dass jedes als Realisierung einer Normalvariablen , haben alle eine gemeinsame Verteilung und sind unabhängig -, werden die Verteilungen dieser Statistiken durch bestimmt die Normalverteilung. Die in der Praxis am häufigsten auftretenden sind $x_1, x_2, \ldots, x_n$ $x_i$ $X_i$ $X_i$

$t_\nu$ , die Student- Verteilung $t$ mit "Freiheitsgraden". Dies ist die Verteilung der Statistik wobei den Mittelwert der Daten und modelliert ist der Standardfehler des Mittelwerts. Die Division durch zeigt , dass muß oder größer ist , wo eine ganze Zahl ist $\nu = n-1$
$t = X ¯ se ( X )$ $t = \frac{\bar X}{\operatorname{se}(X)}$ $\bar X = (X_1 + X_2 + \cdots + X_n)/n$ $\operatorname{se}(X) = (1/\sqrt{n})\sqrt{(X_1^2+X_2^2 + \cdots + X_n^2)/(n-1) - \bar X^2}$ $n-1$ $n$ $2$ $\nu$ $1$ oder größer. Die scheinbar etwas komplizierte Formel ist die Quadratwurzel einer rationalen Funktion der Daten zweiten Grades: Sie ist relativ einfach.
$\chi^2_\nu$ , die (Chi-Quadrat) -Verteilung $\chi^2$ mit "Freiheitsgraden" (df). Dies ist die Verteilung der Quadratsumme von unabhängigen Standard-Normalvariablen. Die Verteilung des Mittelwerts der Quadrate dieser Variablen wird daher eine Verteilung sein, die mit skaliert ist : Ich werde dies als eine "normalisierte" Verteilung bezeichnen. $\nu$ $\nu$ $\chi^2$ $1/\nu$ $\chi^2$
$F_{\nu_1, \nu_2}$ , die Verhältnisverteilung mit Parametern $F$ $(\nu_1, \nu_2)$ ist das Verhältnis zweier unabhängiger normalisierter Verteilungen mit Freiheitsgraden und . $\chi^2$ $\nu_1$ $\nu_2$

Mathematische Berechnungen zeigen, dass alle drei Verteilungen Dichten haben. Wichtig ist, dass die Dichte der Verteilung proportional zum Integranden in Eulers integraler Definition der Gamma ( ) -Funktion ist. Vergleichen wir sie: $\chi^2_\nu$ $\Gamma$

f χ 2 ν (2 x) \propto x ν / 2 - 1 e - x; f Γ (ν) (x) \propto x ν - 1 e - x .

$f_{\chi^2_\nu}(2x) \propto x^{\nu/2 - 1}e^{-x};\quad f_{\Gamma(\nu)}(x) \propto x^{\nu-1}e^{-x}.$

Dies zeigt, dass zweimal eine Variable eine Gamma-Verteilung mit dem Parameter . Der Faktor der Hälfte ist lästig genug, aber subtrahieren würde die Beziehung viel schlimmer machen. Dies liefert bereits eine überzeugende Antwort auf die Frage: Wenn der Parameter einer Verteilung die Anzahl der quadrierten Normalvariablen zählen soll, die sie erzeugen (bis zu einem Faktor von ), dann der Exponent in seiner Dichte Funktion muss eine weniger als die Hälfte dieser Anzahl sein. $\chi^2_\nu$ $\nu/2$ $1$ $\chi^2$ $1/2$

Warum ist der Faktor weniger störend als eine Differenz von ? Der Grund ist, dass der Faktor konsistent bleibt, wenn wir Dinge addieren. Wenn die Summe der Quadrate von unabhängigen Standardnormalen proportional zu einer Gammaverteilung mit dem Parameter (mal einem Faktor) ist, dann ist die Summe der Quadrate von unabhängigen Standardnormalen proportional zu einer Gammaverteilung mit dem Parameter (mal dem gleichen Faktor). Daher ist die Summe der Quadrate aller Variablen proportional zu einer Gamma-Verteilung mit dem Parameter (immer noch der gleiche Faktor). $1/2$ $1$ $n$ $n$ $m$ $m$ $n+m$ $m+n$ Die Tatsache, dass das Hinzufügen der Parameter das Hinzufügen der Zählungen so genau nachahmt, ist sehr hilfreich.

Wenn wir jedoch dieses nervige " " aus den mathematischen Formeln entfernen würden, würden diese netten Beziehungen komplizierter. Wenn wir beispielsweise die Parametrisierung der Gamma-Verteilungen so ändern, dass sie sich auf die tatsächliche Potenz von in der Formel bezieht , wird eine Verteilung mit einer "Gamma " -Verteilung in Beziehung gesetzt (seit der Potenz von in) sein PDF ist ), dann müsste die Summe von drei Verteilungen als "Gamma " -Verteilung bezeichnet werden. Kurz gesagt, die enge additive Beziehung zwischen Freiheitsgraden und dem Parameter in Gammaverteilungen würde durch Entfernen von verloren gehen $-1$ $x$ $\chi^2_1$ $(0)$ $x$ $1-1=0$ $\chi^2_1$ $(2)$ $-1$ aus der Formel und absorbiert es in den Parameter.

In ähnlicher Weise ist die Wahrscheinlichkeitsfunktion einer Verhältnis-Verteilung eng mit Beta-Verteilungen verwandt. In der Tat hat, wenn eine Verhältnisverteilung hat, die Verteilung von eine Beta- Verteilung . Seine Dichtefunktion ist proportional zu $F$ $Y$ $F$ $Z=\nu_1 Y/(\nu_1 Y + \nu_2)$ $(\nu_1/2, \nu_2/2)$

f Z (z) \propto z ν 1 / 2 - 1 (1 - z) ν 2 / 2 - 1 .

$f_Z(z) \propto z^{\nu_1/2 - 1}(1-z)^{\nu_2/2-1}.$

Außerdem hat das Quadrat einer Student- Verteilung mit df eine Verhältnisverteilung mit Parametern . Einmal mehr zeigt sich, dass die Beibehaltung der konventionellen Parametrisierung eine klare Beziehung zu den zugrunde liegenden Zählwerten aufrechterhält , die zu den Freiheitsgraden beitragen. $t$ $\nu$ $F$ $(1,\nu)$

Aus statistischer Sicht wäre es daher am natürlichsten und einfachsten, eine Variation der herkömmlichen mathematischen Parametrisierungen von und Beta - Verteilungen zu verwenden: Wir sollten es vorziehen, eine Verteilung als -Verteilung "und die Beta -Verteilung sollten als" Beta -Verteilung "bezeichnet werden. Tatsächlich haben wir das bereits getan: Genau deshalb verwenden wir weiterhin die Bezeichnungen "Chi-Quadrat" und " Verhältnis" anstelle von "Gamma" und "Beta". Unabhängig davon möchten wir auf keinen Fall das " " entfernen $\Gamma$ $\Gamma(\alpha)$ $\Gamma(2\alpha)$ $(\alpha, \beta)$ $(2\alpha, 2\beta)$ $F$ $-1$ "Ausdrücke, die in den mathematischen Formeln für ihre Dichten erscheinen. Wenn wir das tun, würden wir die direkte Verbindung zwischen den Parametern in den Dichten und den Datenzahlen, mit denen sie verknüpft sind , verlieren : Wir wären immer um eins versetzt.

— whuber
quelle

Vielen Dank für Ihre Antwort (ich + 1d bereits). Ich habe nur eine kleine Folgefrage: Vielleicht fehlt mir etwas, aber opfern wir nicht die direkte Beziehung zum Binomial mithilfe der -1-Parametrisierung?

— Tim

Ich bin mir nicht sicher, auf welche "direkte Beziehung zum Binom" Sie sich beziehen, Tim. Wenn zum Beispiel die Beta -Verteilung als Konjugat vor einer Binomial-Stichprobe verwendet wird, sind die Parameter eindeutig genau die richtigen: Sie addieren (nicht ) zur Anzahl der Erfolge und (nicht ) auf die Anzahl der Ausfälle.

(a,b) $(a,b)$

a $a$

a−1 $a-1$

b $b$

b−1 $b-1$

— Whuber

Die Notation führt Sie in die Irre. Es gibt ein „versteckten “ in der Formel , weil in , und größer sein muss als (der zweite Link , den Sie in Ihrer Frage zur Verfügung gestellt , sagt dies ausdrücklich). Die 's und ' s in den beiden Formeln sind nicht die gleichen Parameter. Sie haben unterschiedliche Bereiche: in , und in , . Diese Bereiche für und $-1$ $(1)$ $(1)$ $\alpha$ $\beta$ $-1$ $\alpha$ $\beta$ $(1)$ $\alpha,\beta>-1$ $(2)$ $\alpha,\beta>0$ $\alpha$ $\beta$ sind notwendig, um sicherzustellen, dass das Integral der Dichte nicht divergiert. Um dies zu sehen, betrachtet in den Fall (oder weniger) und , dann versuchen zu integrieren , die (Kern der) Dichte zwischen und . Versuchen Sie das Gleiche in für (oder weniger) und . $(1)$ $\alpha=-1$ $\beta=0$ $0$ $1$ $(2)$ $\alpha=0$ $\beta=1$

— Zen
quelle

Die Frage nach einem Definitionsbereich für

und

scheint sich zu lösen, wenn das Integral wie Pochhammer 1890 als spezifisches Konturenintegral interpretiert wird. In diesem Fall kann es einem Ausdruck gleichgesetzt werden, der eine analytische Funktion für alle Werte von

und

einschließlich aller komplexen Werte bestimmt . Dies wirft ein Licht auf die Frage, warum genau diese spezifische Parametrisierung übernommen wurde, da es viele andere mögliche Parametrisierungen gibt, die den Anschein erwecken, als könnten sie gleich gut funktionieren. α $\alpha$

β $\beta$

α $\alpha$

β $\beta$

— Whuber

Für mich scheint der Zweifel des OP viel grundlegender zu sein. Er ist verwirrt über das "-1" in (2), aber nicht in (1) (natürlich nicht wahr). Ihr Kommentar scheint eine andere Frage zu beantworten (übrigens viel interessanter).

— Zen

Vielen Dank für Ihre Mühe und Antwort, aber es beantwortet immer noch nicht mein Hauptanliegen: Warum wurde -1 gewählt? Nach Ihrer Logik kann grundsätzlich jeder Wert gewählt werden, der die willkürliche Untergrenze auf etwas anderes ändert. Ich kann nicht verstehen, warum -1 oder 0 eine bessere oder schlechtere Untergrenze für Parameterwerte sein können, abgesehen von der Tatsache, dass 0 "ästhetisch" eine schönere Grenze ist. Andererseits wäre Beta (0, 0) ein guter "Standard" für die gleichmäßige Verteilung, wenn das erste Formular verwendet wird. Ja, das sind sehr subjektive Kommentare, aber das ist mein Hauptpunkt: Gibt es nicht willkürliche Gründe für eine solche Wahl?

— Tim

Zen, ich stimme zu, es gab eine Frage, wie man den ursprünglichen Beitrag interpretiert. Vielen Dank, Tim, für deine Klarstellungen.

— Whuber

Hallo Tim! Ich sehe keinen endgültigen Grund, obwohl es den Zusammenhang mit der Tatsache, dass für

, wenn

und

direkter macht

unabhängig sind, dann

ist

α,β>0 $\alpha,\beta>0$

U∼Gamma(α,1) $U\sim\mathrm{Gamma}(\alpha,1)$

V∼Gamma(β,1) $V\sim\mathrm{Gamma}(\beta,1)$

X=U/(U+V) $X=U/(U+V)$

und die Dichte von

ist proportional zu

. Aber dann können Sie die Parametrisierung der Gamma-Verteilung in Frage stellen ...Beta(α,β) $\mathrm{Beta}(\alpha,\beta)$

X $X$

xα−1(1−x)β−1 $x^{\alpha-1}(1-x)^{\beta-1}$

— Zen

Für mich hängt die Existenz von -1 im Exponenten mit der Entwicklung der Gamma-Funktion zusammen. Die Motivation der Gamma-Funktion besteht darin, eine glatte Kurve zu finden, um die Punkte eines Fakultäts $x!$ zu verbinden . Da es nicht möglich ist $x!$ zu berechnen direkt, wenn $x$ nicht ganzzahlig ist, bestand die Idee darin, eine Funktion für jedes $x \geq 0$ , die die durch die Fakultät definierte Wiederholungsrelation erfüllt, nämlich

$f(1)=1\\ f(x+1)=x \cdot f(x).$

Die Lösung bestand in der Konvergenz eines Integrals. Für die Funktion definiert als

$f(x+1) = \displaystyle\int_{0}^{\infty} t^{x}e^{-x} dt,$

Die Teilintegration bietet Folgendes:

$\begin{align} f(x+1) & = \displaystyle\int_{0}^{\infty} t^{x}e^{-x} dt \\ & = \Big[-t^{x}e^{-x} \Big]^{\infty}_{0} + \displaystyle\int_{0}^{\infty} x\cdot t^{x-1}e^{-x} dt \\ &= \lim_{x \to \infty} (-t^{x}e^{-x}) - 0 \cdot e^{-0} + x\cdot \displaystyle\int_{0}^{\infty} t^{x-1}e^{-x} dt \\ &= 0 - 0 + x\cdot \displaystyle\int_{0}^{\infty} t^{x-1}e^{-x} dt \\ &= x \cdot f(x) . \end{align}$

Die obige Funktion erfüllt diese Eigenschaft, und das -1 im Exponenten ergibt sich aus der Prozedur der Integration nach Teilen. Siehe den Wikipedia-Artikel https://en.wikipedia.org/wiki/Gamma_function .

Edit: Ich entschuldige mich, wenn mein Beitrag nicht vollständig klar ist; Ich versuche nur darauf hinzuweisen, dass in meiner Idee die Existenz von -1 in der Beta-Verteilung durch die Verallgemeinerung der Fakultät mittels der Gamma-Funktion zustande kommt. Es gibt zwei Bedingungen: $f(1)=1$ und $f(x+1)=x \cdot f(x)$ . Wir haben $\Gamma(x) = (x-1)!$ daher erfüllt es $\Gamma(x+1) = x \cdot \Gamma(x) = x \cdot (x-1)! = x!$ . Zusätzlich haben wir $\Gamma(1) = (1-1)! = 0! = 1$ . Wie für die BetaVerteilung mit Parameter $\alpha, \beta$ , Verallgemeinerung des Binomialkoeffizient ist $\dfrac{\Gamma(\alpha + \beta)}{\Gamma(\alpha) \cdot \Gamma(\beta)} = \dfrac{(\alpha + \beta - 1)!}{(\alpha-1)! \cdot (\beta-1)!}$ . Dort haben wir für beide Parameter den Nenner -1.

— aatr
quelle

Dies macht keinen Sinn, da die von der Fakultät erfüllte Wiederholungsfunktion nicht Ihrer Aussage entspricht:

$(x+1)! \ne x \cdot x!.$

— whuber

Die Funktion

die Rekursion erfüllt , ist die Gamma:

. So wird es definiert. $f(x)$

$\Gamma(x+1) = x \cdot \Gamma(x)$

— 24.

Ja, aber Ihre angegebene Motivation basiert auf der Fakultätsfunktion , nicht auf dem Gamma.

— whuber

Es ist wichtig, an die Beziehung zwischen Gamma und Fakultät zu erinnern:

. $\Gamma(x) = (x-1)!$

— 25.

Leider ist das eine zirkuläre Logik: Sie beginnen mit der Fakultät, charakterisieren Gamma als Interpolation und schließen daraus, dass es eine -1 gibt. In der Tat zeigt Ihr Beitrag das -1, als ob es versehentlich herausgefallen wäre, indem Sie Gamma mit der Fakultät verwechseln. Nur wenige werden das entweder aufschlussreich oder überzeugend finden.

— whuber