Maximum-Likelihood-Funktion für die Verteilung gemischter Typen


11

Im Allgemeinen maximieren wir eine Funktion

L(θ;x1,,xn)=i=1nf(xiθ)

Dabei ist die Wahrscheinlichkeitsdichtefunktion, wenn die zugrunde liegende Verteilung kontinuierlich ist, und eine Wahrscheinlichkeitsmassenfunktion (mit Summation anstelle des Produkts), wenn die Verteilung diskret ist.f

Wie spezifizieren wir die Wahrscheinlichkeitsfunktion, wenn die zugrunde liegende Verteilung eine Mischung zwischen einer kontinuierlichen und einer diskreten Verteilung ist, wobei die Gewichte jeweils von abhängen ?θ


2
Was genau trifft Ihrer Meinung nach nicht zu ..?
Tim

@Tim, meine Verwirrung resultiert daraus, dass ich nicht weiß, dass die Wahrscheinlichkeitsfunktion eine Definition hat, die allgemeiner ist als die Standarddefinition für kontinuierliche und diskrete Wahrscheinlichkeiten. Das heißt, ich dachte wie folgt. Die Verteilung ist weder kontinuierlich noch diskret, so dass sie keine Wahrscheinlichkeitsfunktion haben kann. Da es keine Wahrscheinlichkeitsfunktion gibt, gilt MLE nicht.
Gregorias

1
Die Verteilung kann weder diskret noch kontinuierlich sein, wie zum Beispiel die Cantor-Verteilung, und wie von Xi'an angegeben, wird die Wahrscheinlichkeit in Form von Wahrscheinlichkeitsdichtefunktionen definiert, sodass Sie nur PDF Ihrer Verteilung benötigen, um die Wahrscheinlichkeit zu definieren.
Tim

@ Tim, ich bin mir ziemlich bewusst, dass es verschiedene Distributionen gibt. Das war der Punkt, den ich ansprechen wollte. Beachten Sie, dass die Wahrscheinlichkeit ein allgemeineres Konzept ist als ein PDF. Insbesondere haben nur kontinuierliche Variablen PDF (genau diese Distributionen haben es). Beispielsweise enthält die von Ihnen erwähnte Cantor-Distribution kein PDF.
Gregorias

Es hängt davon ab, wie Sie PDFs definieren. PMF kann als Sonderfall von PDF angesehen werden. Sie können PDFs diskreter Verteilungen in Form von Dirac-Deltas usw. definieren, sodass es kein Problem ist, dass die Verteilung diskreter oder gemischter Art ist.
Tim

Antworten:


7

Die Wahrscheinlichkeitsfunktion ist die Dichte der Daten bei dem beobachteten Wert ausgedrückt als Funktion von Diese Dichte wird für jeden (akzeptablen) Wert von fast überall über die Unterstützung von , gegen ein bestimmtes Maß über das hängt nicht von . Für jede parametrische Familie sollte es ein derart dominierendes Maß für alle , daher eine Dichte, also eine Wahrscheinlichkeit.x θ ( θ | x ) = f ( x | θ ) θ x X X θ θ(θ|x)xθ

(θ|x)=f(x|θ)
θxXXθθ

Hier ist ein relevanter Auszug aus dem Wikipedia-Eintrag zu Wahrscheinlichkeitsfunktionen (Stress gehört mir):

In der messungstheoretischen Wahrscheinlichkeitstheorie wird die Dichtefunktion als Radon-Nikodym-Ableitung der Wahrscheinlichkeitsverteilung relativ zu einem dominierenden Maß definiert. Dies liefert eine Wahrscheinlichkeitsfunktion für jedes Wahrscheinlichkeitsmodell mit allen Verteilungen, ob diskret, absolut kontinuierlich, eine Mischung oder etwas anderes. (Die Wahrscheinlichkeiten sind vergleichbar, z. B. für die Parameterschätzung, nur wenn es sich um Radon-Nikodym-Derivate in Bezug auf dasselbe dominierende Maß handelt.)


7

Ich gebe zu, dass ich mich einige Zeit früher in meiner Karriere mit dieser Frage beschäftigt habe. Eine Möglichkeit, mich von der Antwort zu überzeugen, bestand darin, eine äußerst praktische, angewandte Sicht auf die Situation zu haben, eine Sichtweise, die erkennt, dass keine Messung perfekt ist. Mal sehen, wohin das führen könnte.

Der Zweck dieser Übung besteht darin, die Annahmen aufzudecken, die erforderlich sein könnten, um die etwas glatte Vermischung von Dichten und Wahrscheinlichkeiten in Ausdrücken für Wahrscheinlichkeiten zu rechtfertigen. Ich werde daher solche Annahmen hervorheben, wo immer sie eingeführt werden. Es stellt sich heraus, dass einige benötigt werden, aber sie sind ziemlich mild und decken jede Anwendung ab, auf die ich gestoßen bin (die natürlich begrenzt sein wird, aber immer noch einige enthält).

Das Problem betrifft eine gemischte Verteilung die weder absolut stetig noch singulär ist. Der Lebesgue-Zerlegungssatz erlaubt es uns, eine solche Verteilung als eine Mischung aus einer absolut kontinuierlichen (die per Definition eine Dichtefunktion ) und einer singulären ("diskreten") zu betrachten, die eine Wahrscheinlichkeitsmassenfunktion (Ich werde die Möglichkeit ignorieren, dass eine dritte, kontinuierliche, aber nicht absolut kontinuierliche Komponente vorhanden ist. Diejenigen, die solche Modelle verwenden, wissen in der Regel, was sie tun, und verfügen normalerweise über alle technischen Fähigkeiten, um sie zu rechtfertigen.)F,f a f d .fafd.

Wenn ein Mitglied einer parametrischen Verteilungsfamilie ist, können wir schreibenF=Fθ

Fθ(x)=Faθ(x)+Fdθ(x)=xfa(t;θ)dt+txfd(t;θ).

(Die Summe ist natürlich höchstens zählbar.) Hier ist eine Wahrscheinlichkeitsdichtefunktion multipliziert mit einem Mischungskoeffizienten und ist eine Wahrscheinlichkeit Massenfunktion multipliziert mitfa(;θ)λ(θ)fd(;θ)1λ(θ).

Lassen Sie uns jede Beobachtung in einem iid-Datensatz als "wirklich" interpretieren, was bedeutet, dass wir sicher wissen, dass ein hypothetischer wahrer zugrunde liegender Wert in einem Intervall liegt um aber ansonsten keine Informationen über Vorausgesetzt, wir kennen alle Deltas und Epsilons, stellt dies keine Probleme mehr für die Konstruktion einer Wahrscheinlichkeit dar, da alles in Wahrscheinlichkeiten ausgedrückt werden kann:xiX=(x1,x2,,xn)yi(xiδi,xi+ϵi]xi,yi.

L(X;θ)=i(Fθ(xi+ϵi)Fθ(xiδi)).

Wenn die Unterstützung von an keinem Kondensationspunkte hatFdθxi, verringert sich ihr Beitrag zur Wahrscheinlichkeit auf höchstens einen einzigen Term, vorausgesetzt, die Epsilons und Deltas sind ausreichend klein: Wenn nicht vorhanden ist, gibt es keinen Beitrag in seiner Unterstützung.xi

Wenn wir annehmen ist Lipschitz - stetig auf allen Datenwerte,fa(;θ) dann einheitlich in den Größen der Epsilons und Deltas können wir die absolut kontinuierlichen Teil nähern alsF θ ( x i )Fθ(xi)

Faθ(xi+ϵi)Faθ(xiδi)=fa(xi;θ)(ϵi+δi)+o(|ϵi+δi|).

Die Einheitlichkeit dieser Annäherung bedeutet , dass , wie wir nehmen alle die Epsilons und Deltas klein wachsen, alle die Bedingungen wachsen auch klein. Folglich gibt es einen verschwindend kleinen Wert der durch die Beiträge all dieser Fehlerterme bestimmt wird, für dieo()ϵ(θ)>0,

L(X;θ)=i(fa(xi;θ)(ϵi+δi)+o(|ϵi+δi|)+fd(xi;θ))=i(fa(xi;θ)(ϵi+δi)+fd(xi;θ)) + o(ϵ(θ)).

Das ist immer noch etwas chaotisch, aber es zeigt, wohin wir gehen. Bei zensierten Daten ist normalerweise nur ein Teil jedes Begriffs im Produkt ungleich Null, da diese Modelle normalerweise davon ausgehen, dass die Unterstützung des einzelnen Teils der Verteilung vom oberen Teil des kontinuierlichen Teils getrennt ist, unabhängig davon, um welchen Wert es sich handelt Parameter könnte sein. θf d ( x ) 0 F a ( x + ϵ ) - F a ( x - ϵ ) = o ( ϵ ) .(Insbesondere: impliziert können wir das Produkt in zwei Teile und die Beiträge aus alle Intervalle aus dem durchgehenden Teil:fd(x)0Fa(x+ϵ)Fa(xϵ)=o(ϵ).

L(X;θ)=(i=1k(ϵi+δi))i=1kfa(xi;θ) i=k+1nfd(xi;θ).

(Ohne Verlust der Allgemeinheit habe ich die Daten so indiziert, dass zum kontinuierlichen Teil beitragen und ansonsten beitragen der singuläre Teil der Wahrscheinlichkeit.)xi,i=1,2,,kxi,i=k+1,k+2,,n

Dieser Ausdruck macht das jetzt deutlich

Da die Intervallbreiten fest sind, tragen sie nicht zur Wahrscheinlichkeit bei (die nur bis zu einem positiven konstanten Vielfachen definiert ist).ϵi+δi

Dementsprechend können wir mit dem Ausdruck arbeiten

L(X;θ)=i=1kfa(xi;θ) i=k+1nfd(xi;θ)

beim Erstellen von Wahrscheinlichkeitsverhältnissen oder beim Maximieren der Wahrscheinlichkeit. Das Schöne an diesem Ergebnis ist, dass wir nie die Größe der endlichen Intervalle kennen müssen, die in dieser Ableitung verwendet werden: Die Epsilons und Deltas fallen sofort aus. Wir müssen nur wissen, dass wir sie klein genug machen können, damit der Wahrscheinlichkeitsausdruck, mit dem wir tatsächlich arbeiten, eine angemessene Annäherung an den Wahrscheinlichkeitsausdruck darstellt, den wir verwenden würden, wenn wir die Intervallgrößen kennen würden.


1
Tolle Antwort (+1). Ein Verbesserungsvorschlag - in dem Fall, in dem an einem Punkt eine gemeinsame Unterstützung besteht (so dass Sie die diskreten und kontinuierlichen Terme nicht in der Summe trennen können), dominiert der diskrete Term den kontinuierlichen Term vollständig, sodass die Wahrscheinlichkeit den kontinuierlichen ignoriert Teil an diesem Punkt (effektiv auf Null setzen). Dies bedeutet, dass selbst wenn es einen Punkt mit gemeinsamer Unterstützung gibt, dieser als diskreter Teil behandelt wird und Sie die gleiche Produktzerlegung erhalten, die Sie hier erhalten. (Es sei denn, ich vermisse etwas.)
Ben - Reinstate Monica

1
@ Ben Danke für diesen aufschlussreichen Kommentar. Ich würde es jedoch vorziehen, diesem Problem auszuweichen, da ich ein wenig besorgt bin über einige "Rand" -Fälle, die auftreten könnten. Was würde man zum Beispiel tun, wenn an einem der Stützpunkte von ? f dfafd
whuber

1
Ja, das würde dornig werden. Dodge verstand!
Ben - Reinstate Monica

1
Ich habe eine Antwort hinzugefügt, in der ein zusätzlicher Aspekt dieses Problems erwähnt wird, bei dem sich herausstellt, dass es am einfachsten gelöst werden kann, indem die kontinuierliche Dichte in der Unterstützung des diskreten Teils ignoriert wird. Bitte lesen Sie meine Antwort durch und prüfen Sie, ob dies eine weitere Motivation für die Behandlung dieses Aspekts des Problems darstellt. (Meine Intuition ist, dass selbst wenn an einem Punkt in der Unterstützung von unendlich wird, es immer noch als unendlich kleiner als der diskrete Teil angesehen wird.)f dfafd
Ben - Reinstate Monica

6

Diese Frage ist ein äußerst wichtiges grundlegendes Problem in der Wahrscheinlichkeitsanalyse und auch ein sehr subtiles und schwieriges. Daher bin ich ziemlich überrascht über einige der oberflächlichen Antworten, die sie in den Kommentaren erhält.

Auf jeden Fall werde ich in dieser Antwort nur einen kleinen Punkt zu Whubers hervorragender Antwort hinzufügen (was meiner Meinung nach die richtige Herangehensweise an dieses Problem ist). Dieser Punkt ist, dass Wahrscheinlichkeitsfunktionen in diesem Zusammenhang von Dichtefunktionen über ein gemischtes dominierendes Maß stammen, und dies führt zu der interessanten Eigenschaft, dass wir die relativen Größen der Wahrscheinlichkeitsfunktion willkürlich über die kontinuierlichen und diskreten Teile skalieren können und immer noch eine gültige haben Wahrscheinlichkeitsfunktion . Dies wirft eine offensichtliche Frage auf, wie wir Wahrscheinlichkeitstechniken implementieren können, wenn es keine eindeutige Wahrscheinlichkeitsfunktion gibt.

Die Veranschaulichung dieses Punktes erfordert eine vorläufige Darstellung der Abtastdichte als Radon-Nikodym-Ableitung des Wahrscheinlichkeitsmaßes. Bitte nehmen Sie Kontakt mit mir auf. Ich werde zuerst zeigen, wie man eine Dichtefunktion für ein gemischtes dominierendes Maß erhält, und dann werde ich zeigen, warum dies dazu führt, dass die kontinuierlichen und diskreten Teile der Wahrscheinlichkeit nach Belieben skaliert werden können. Abschließend werde ich die Auswirkungen dieses Problems auf die wahrscheinlichkeitsbasierte Analyse erörtern und meine Meinung zu seiner Lösung abgeben. Ich denke, dies wird im Wesentlichen durch die Methode gelöst, die Whuber in seiner Antwort vorstellt, aber sie müsste in die Richtung erweitert werden, die ich in den Kommentaren zu dieser Antwort erörtert habe, um sicherzustellen, dass jeder Punkt in der Unterstützung des diskreten Teils ignoriert wird der kontinuierliche Teil an diesem Punkt.


Ausdrücken der Dichte mit einem dominierenden Maß: Der Standardansatz für den Umgang mit gemischten Dichten für reale Zufallsvariablen besteht darin, das Lebesgue-Maß als dominierendes Maß für den kontinuierlichen Teil und das Zählmaß (über eine bestimmte zählbare Menge ) als dominierendes Maß für den diskreten Teil. Dies führt zu dem Radon-Nikodym-Derivat, definiert durch:λLEBλ COUNT DR. λCOUNTDR

P(XA|θ)=Af(x|θ) dλLEB(x)+Ap(x|θ) dλCOUNT(x).

(Beachten Sie, dass das letztere Integral zu einer Summe über den Elementen degeneriert . Wir schreiben es hier als Integral, um die Ähnlichkeit zwischen den beiden Begriffen klarer zu machen.) Man kann Verwenden Sie eine einzelne Dichte, indem Sie das Maß und einstellen:xADλλLEB+λCOUNT

f(x|θ)I(xD)f(x|θ)+I(xD)p(x|θ).

Unter Verwendung von als dominierendes Maß haben wir dann den folgenden Ausdruck für die Wahrscheinlichkeit von Interesse:λ

P(XA|θ)=Af(x|θ) dλ(x).

Dies zeigt, dass die Funktion eine gültige Radon-Nikodym-Ableitung des Wahrscheinlichkeitsmaßes für , also eine gültige Dichte für diese Zufallsvariable. Da hängt es von und können wir dann eine gültige Wahrscheinlichkeitsfunktion definieren durch Halten fixiert und die Behandlung dieser als Funktion der .fXxθLx(θ)f(x|θ)xθ


Effekt der Skalierung der dominierenden Maße: Nachdem wir nun die Extraktion einer Dichte aus einem dominierenden Maß verstanden haben, führt dies zu einer seltsamen Eigenschaft, bei der wir die relativen Größen der Wahrscheinlichkeit über die kontinuierlichen und diskreten Teile skalieren können und immer noch eine gültige Wahrscheinlichkeit haben Funktion. Wenn wir jetzt das dominierende Maß für einige positive Konstanten und dann erhalten wir nun die entsprechende Radon-Nikodym-Dichte:λαλLEB+βλCOUNTα>0β>0

f(x|θ)I(xD)αf(x|θ)+I(xD)βp(x|θ).

Unter Verwendung von als dominierendes Maß haben wir dann den folgenden Ausdruck für die Wahrscheinlichkeit des Interesses:λ

P(XA|θ)=Af(x|θ) dλ(x).

Wie in dem obigen Fall können wir eine gültige Wahrscheinlichkeitsfunktion definieren , indem fixiert und die Behandlung dieser als Funktion der . Sie können sehen, dass die Freiheit, und zu variieren, uns jetzt die Freiheit gibt, die relativen Größen der kontinuierlichen und diskreten Teile in der Wahrscheinlichkeitsfunktion so weit zu skalieren, wie wir wollen, und dennoch eine gültige Wahrscheinlichkeitsfunktion haben (wenn auch in Bezug auf ein anderes dominierendes Maß mit entsprechender Skalierung der Teile).Lx(θ)f(x|θ)xθαβ

Dieses spezielle Ergebnis ist nur ein Teil des allgemeineren Ergebnisses, dass jede Wahrscheinlichkeitsfunktion in Bezug auf eine (implizite) zugrunde liegende dominierende Kennzahl definiert ist, und es gibt keine eindeutige Wahrscheinlichkeitsfunktion, die unabhängig von dieser zugrunde liegenden Kennzahl definiert werden kann. Trotzdem sehen wir in diesem speziellen Fall, dass es immer noch auf einem dominierenden Maß basiert, das eine Kombination aus Lebesgue-Maß und Zählmaß ist, so dass wir mit dem Maß nicht wirklich viel Affen gemacht haben. Da es keine objektive Rechtfertigung für die Bildung des dominierenden Maßes aus gleichen Gewichtungen des Lebesgue-Maßes und des Zählmaßes gibt, bedeutet dies, dass es keine objektive Rechtfertigung für die relative Skalierung für die kontinuierlichen und diskreten Teile der Wahrscheinlichkeitsfunktion gibt.


Implikationen für die Wahrscheinlichkeitsanalyse: Dies scheint uns in ein Dilemma zu bringen. Wir können die diskreten und kontinuierlichen Teile der Wahrscheinlichkeitsfunktion willkürlich in ihrer relativen Größe nach oben oder unten skalieren und haben dennoch einen ebenso vernünftigen Anspruch darauf, dass dies eine gültige Wahrscheinlichkeitsfunktion ist. Glücklicherweise kann dieses Problem gelöst werden, indem erkannt wird, dass die Skalierungskonstanten auf die gleiche Weise aus der Wahrscheinlichkeitsfunktion herauskommen, wie in der Antwort von whuber dargestellt . Das heißt, wenn wir und wir:x1,...,xkDxk+1,...,xnD

Lx(θ)=i=1nLxi(θ)=i=1nf(xi|θ)=(i=1k1αf(xi|θ))(i=k+1n1βp(xi|θ))=1αkβnk(i=1kf(xi|θ))(i=k+1np(xi|θ))=1αkβnki=1nf(xi|θ)i=1nf(xi|θ)=i=1nLxi(θ)=Lx(θ).

Dies zeigt, dass die Skalierungseigenschaften des dominierenden Maßes die Wahrscheinlichkeitsfunktion nur durch eine Skalierungskonstante beeinflussen, die bei Standard-MLE-Problemen ignoriert werden kann. Beachten Sie, dass bei meiner Behandlung dieses Problems diese nützliche Eigenschaft als direkte Folge der Tatsache aufgetreten ist, dass die Abtastdichte so definiert ist, dass die kontinuierliche Dichte ignoriert wird, wenn wir den diskreten Teil unterstützen. (Dies unterscheidet sich von Whubers Antwort, bei der er eine Kombination dieser Teile zulässt. Ich denke, dies könnte tatsächlich zu einigen schwierigen Problemen führen; siehe meine Kommentare zu dieser Antwort.)


Dieses Ergebnis ist nicht auf gemischte Fälle beschränkt. Selbst in einfachen Fällen mit kontinuierlichen oder diskreten Zufallsvariablen ergibt sich eine Variation des Radon-Nikodym-Derivats, wenn Sie das zugrunde liegende dominierende Maß variieren, was dann zu einer anderen Wahrscheinlichkeitsfunktion führt.


3
+1. Ich denke, Sie haben gute Arbeit geleistet, indem Sie meine elementare Erklärung mit @ Xi'ans ursprünglicher messungstheoretischer Antwort in Verbindung gebracht haben und damit den Kreis (sehr informativ) geschlossen haben.
whuber

3

Ein Beispiel, bei dem dies auftritt, dh die Wahrscheinlichkeit, die durch ein Wahrscheinlichkeitsmodell vom gemischten kontinuierlichen / diskreten Typ gegeben ist, sind zensierte Daten. Ein Beispiel finden Sie unter Regression der gewichteten normalen Fehler mit Zensur .

Im Allgemeinen kann dies unter Verwendung der Maßtheorie formuliert werden. Nehmen Sie dann ein statistisches Modell mit einer Modellfunktion die eine Radon-Nikodym-Ableitung in Bezug auf ein gemeinsames Maß (das nicht vom Parameter abhängen sollte ). Dann wird die Likelihood - Funktion auf der Basis einer unabhängigen Probe IS . Dies ist in kontinuierlichen, diskreten und gemischten Fällen wirklich dasselbe.λ θ x 1 , x 2 , ... , xf(x;θ)λθi f ( x i ; θ )x1,x2,,xnif(xi;θ)

Ein einfaches Beispiel könnte die Modellierung des täglichen Niederschlags sein. Das könnte mit positiver Wahrscheinlichkeit Null oder positiv sein. Für das dominierende Maß könnten wir also die Summe des Lebesgue-Maßes für und eines Atoms bei Null verwenden. ( 0 , )λ(0,)

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.