Was ist der Grund für die exponentielle Verteilungsfamilie?


10

Aus dem elementaren Wahrscheinlichkeitskurs haben die Wahrscheinlichkeitsverteilungen wie Gauß, Poisson oder Exponential alle eine gute Motivation. Nachdem ich lange auf die Formel der exponentiellen Familienverteilungen gestarrt habe, bekomme ich immer noch keine Intuition.

fX.(xθ)=h(x)exp(η(θ)T.(x)- -EIN(θ))

Kann mir jemand helfen zu verstehen, warum wir es überhaupt brauchen? Was sind einige Vorteile der Modellierung einer Antwortvariablen als exponentielle Familie gegenüber normal?

EDIT: Mit der exponentiellen Familie meinte ich die hier beschriebene allgemeine Klasse von Verteilungen .


1
TL; DR? Ein Teil des Grundes ist die mathematische Bequemlichkeit; Viele Probleme können analytisch gelöst werden, wenn Sie davon ausgehen, dass PDFs aus dieser Familie stammen.
Vladislavs Dovgalecs

Antworten:


10

Was sind einige Vorteile der Modellierung einer Antwortvariablen als exponentielle Familie gegenüber normal?

  1. Die exponentielle Familie ist viel breiter als die normale. Was ist zum Beispiel der Vorteil der Verwendung eines Poisson oder eines Binomials anstelle eines normalen? Ein Normaler nützt nicht viel, wenn Sie mit einem niedrigen Mittelwert gezählt haben. Was ist, wenn Ihre Daten kontinuierlich, aber sehr richtig sind - vielleicht mal oder in Geldbeträgen? Die exponentielle Familie umfasst das Normal-, das Binomial-, das Poisson- und das Gamma als Sonderfälle (unter vielen anderen)

  2. Es enthält eine Vielzahl von Varianz-Mittelwert- Beziehungen.

  3. Es ergibt sich aus dem Versuch, eine Frage im Sinne von "Welche Verteilungen sind Funktionen einer ausreichenden Statistik? " Zu beantworten. Daher können Modelle über ML unter Verwendung sehr einfacher ausreichender Statistiken geschätzt werden. Dies schließt die üblichen Modelle ein, die in Programmen verfügbar sind, die für verallgemeinerte lineare Modelle geeignet sind. Tatsächlich ist die ausreichende Statistik ( ) in der Exponentialfamiliendichtefunktion explizit.T(x)

  4. Es macht es einfach, die Beziehung zwischen der Antwort und dem Prädiktor von der bedingten Verteilung der Antwort (über Verbindungsfunktionen) zu entkoppeln. Beispielsweise könnten Sie eine lineare Beziehung zu einem Modell anpassen, das angibt, dass die bedingte Antwort eine Gammaverteilung aufweist , oder eine exponentielle Beziehung zu einer bedingten Gaußschen Antwort in einem GLM-Framework.

Für Bayesianer ist die exponentielle Familie sehr interessant, da alle Mitglieder der exponentiellen Familie konjugierte Prioritäten haben.


1
Ich bin ein bisschen verloren in Ihrem 3. Punkt. Soweit ich mich erinnere, sind alle Wahrscheinlichkeitsverteilungen aus meiner Undergrad-Wahrscheinlichkeitsklasse Funktionen ihrer ausreichenden Statistik. Dies ist möglicherweise nicht der Fall bei seltsamen Verteilungen wie Cauchy (deren ausreichende Statistik ich nicht so sicher bin) oder anderen Potenzgesetzverteilungen. Aber warum ist das eine große Sache?
Bürger des Nordens

1
Es ist möglich, dass ich mich nicht klar ausgedrückt habe. Siehe Koopman, BO, (1936), "Über Verteilungen, die eine ausreichende Statistik zulassen " , Transactions of the American Mathematical Society, 39: 3, 399-409. Hier entsteht das Konzept der Exponentialfamilie; Der spezifische Sinn, in dem die Exponentialfamilie in Bezug auf die Suffizienz besonders ist, wird auf der ersten Seite und in den ersten Zeilen der zweiten Seite erläutert.
Glen_b -State Monica

5

Für mich ist die Hauptmotivation für exponentielle Familienverteilungen, dass sie die Familien mit maximaler Entropieverteilung sind, wenn eine Reihe ausreichender Statistiken und eine Unterstützung vorliegen. Mit anderen Worten, sie sind eine minimale angenommene Verteilung.

Wenn Sie beispielsweise nur den Mittelwert und die Varianz der reellen Größe messen, ist die Normalverteilung die am wenigsten angenommene Modellierungsoption.

Vom Standpunkt der Berechnung aus gibt es weitere Vorteile:

  • Sie werden unter "Beweiskombination" geschlossen. Das heißt, die Kombination zweier unabhängiger Wahrscheinlichkeiten aus derselben Exponentialfamilie befindet sich immer in derselben Exponentialfamilie, und ihre natürlichen Parameter sind lediglich die Summe der natürlichen Parameter ihrer Komponenten. Dies ist praktisch für die Bayes'sche Statistik.

  • Der Gradient der Kreuzentropie zwischen zwei exponentiellen Familienverteilungen ist die Differenz ihrer Erwartungsparameter. Dies bedeutet, dass eine Verlustfunktion, bei der es sich um eine solche Kreuzentropie handelt, eine sogenannte Matching-Loss-Funktion ist , die für die Optimierung geeignet ist.


2

Glen's Liste ist gut. Ich werde eine weitere Anwendung hinzufügen, um seine Antwort zu ergänzen: Ableiten konjugierter Prioritäten für die Bayes'sche Folgerung.

Ein Kernteil der Bayes'schen Inferenz ist die Ableitung der posterioren Verteilungen p(θ|y)p(y|θ)p(θ)p(θ)p(y|θ)p(y|θ)p(θ)

n

p(y1,,yn|θ)=p(yich|θ)G(θ)nexp[h(θ)t(yich)]]

wir können einfach ein Konjugat vorher als schreiben

p(θ)G(θ)ν[h(θ)δ]]

und dann arbeitet der hintere als

p(θ|y1,,yn)G(θ)n+νexp[h(θ)(t(yich)+δ)]]

Warum ist diese Konjugation nützlich? Weil es sowohl unsere Interpretation als auch unsere Berechnung bei der Durchführung der Bayes'schen Inferenz vereinfacht. Dies bedeutet auch, dass wir leicht analytische Ausdrücke für den Seitenzahn entwickeln können, ohne zu viel Algebra ausführen zu müssen.


0

Sie möchten, dass Ihr Datenmodell den Generierungsprozess widerspiegelt. Der 'Prozess', der Gaußsche Variablen erzeugt, hat ganz andere Eigenschaften als der, der das Exponential regelt, und es ist nicht immer intuitiv, warum. Manchmal müssen Sie andere Verteilungsmerkmale schätzen. Betrachten Sie als ein Beispiel, dass die Hazard-Funktion für Gauß zunimmt, während die Exponentialfunktion flach ist. Nehmen wir als einfaches praktisches Beispiel an, ich werde Sie in Intervallen stupsen, und das 'Inter-Poke-Intervall' wird durch die Gaußsche oder exponentielle Erzeugungsfunktion ausgewählt. Unter einem Gaußschen würden Sie feststellen, dass Stöße vorhersehbar sind und sich nach langen Intervallen sehr wahrscheinlich anfühlen. Unter Exponential würden sie sich sehr unberechenbar fühlen. Der Grund dafür liegt in der Erzeugungsfunktion, die vom zugrunde liegenden Phänomen abhängt.


6
Die Frage war nicht eindeutig, ob das OP nach der Exponentialverteilung oder der Exponentialfamilie fragte. Hier interpretieren Sie das Q als das erstere, während @Glen_b es als das letztere interpretierte. Das OP hat nun seine Frage zur exponentiellen Familie geklärt. Würden Sie vor diesem Hintergrund in Betracht ziehen, dies zu bearbeiten oder möglicherweise zu löschen?
Gung - Reinstate Monica
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.