Ich gebe zu, dass ich mich einige Zeit früher in meiner Karriere mit dieser Frage beschäftigt habe. Eine Möglichkeit, mich von der Antwort zu überzeugen, bestand darin, eine äußerst praktische, angewandte Sicht auf die Situation zu haben, eine Sichtweise, die erkennt, dass keine Messung perfekt ist. Mal sehen, wohin das führen könnte.
Der Zweck dieser Übung besteht darin, die Annahmen aufzudecken, die erforderlich sein könnten, um die etwas glatte Vermischung von Dichten und Wahrscheinlichkeiten in Ausdrücken für Wahrscheinlichkeiten zu rechtfertigen. Ich werde daher solche Annahmen hervorheben, wo immer sie eingeführt werden. Es stellt sich heraus, dass einige benötigt werden, aber sie sind ziemlich mild und decken jede Anwendung ab, auf die ich gestoßen bin (die natürlich begrenzt sein wird, aber immer noch einige enthält).
Das Problem betrifft eine gemischte Verteilung die weder absolut stetig noch singulär ist. Der Lebesgue-Zerlegungssatz erlaubt es uns, eine solche Verteilung als eine Mischung aus einer absolut kontinuierlichen (die per Definition eine Dichtefunktion ) und einer singulären ("diskreten") zu betrachten, die eine Wahrscheinlichkeitsmassenfunktion (Ich werde die Möglichkeit ignorieren, dass eine dritte, kontinuierliche, aber nicht absolut kontinuierliche Komponente vorhanden ist. Diejenigen, die solche Modelle verwenden, wissen in der Regel, was sie tun, und verfügen normalerweise über alle technischen Fähigkeiten, um sie zu rechtfertigen.)F,f a f d .fafd.
Wenn ein Mitglied einer parametrischen Verteilungsfamilie ist, können wir schreibenF=Fθ
F.θ( x ) = F.a θ( x ) + F.dθ( x ) = ∫x∞fein( t ; θ ) d t + ∑t ≤ xfd( t ; θ ) .
(Die Summe ist natürlich höchstens zählbar.) Hier ist eine Wahrscheinlichkeitsdichtefunktion multipliziert mit einem Mischungskoeffizienten und ist eine Wahrscheinlichkeit Massenfunktion multipliziert mitfein(;; θ )λ ( θ )fd(;; θ )1 - λ ( θ ) .
Lassen Sie uns jede Beobachtung in einem iid-Datensatz als "wirklich" interpretieren, was bedeutet, dass wir sicher wissen, dass ein hypothetischer wahrer zugrunde liegender Wert in einem Intervall liegt um aber ansonsten keine Informationen über Vorausgesetzt, wir kennen alle Deltas und Epsilons, stellt dies keine Probleme mehr für die Konstruktion einer Wahrscheinlichkeit dar, da alles in Wahrscheinlichkeiten ausgedrückt werden kann:xichX.= ( x1, x2, … , X.n)yich( xich- δich, xich+ ϵich]]xich,yich.
L (X.;; θ ) = ∏ich( F.θ( xich+ ϵich) - F.θ( xich- δich) ) .
Wenn die Unterstützung von an keinem Kondensationspunkte hatF.dθxich, verringert sich ihr Beitrag zur Wahrscheinlichkeit auf höchstens einen einzigen Term, vorausgesetzt, die Epsilons und Deltas sind ausreichend klein: Wenn nicht vorhanden ist, gibt es keinen Beitrag in seiner Unterstützung.xich
Wenn wir annehmen ist Lipschitz - stetig auf allen Datenwerte,fein(;; θ ) dann einheitlich in den Größen der Epsilons und Deltas können wir die absolut kontinuierlichen Teil nähern alsF θ ( x i )Fθ(xi)
Faθ(xi+ϵi)−Faθ(xi−δi)=fa(xi;θ)(ϵi+δi)+o(|ϵi+δi|).
Die Einheitlichkeit dieser Annäherung bedeutet , dass , wie wir nehmen alle die Epsilons und Deltas klein wachsen, alle die Bedingungen wachsen auch klein. Folglich gibt es einen verschwindend kleinen Wert der durch die Beiträge all dieser Fehlerterme bestimmt wird, für dieo()ϵ(θ)>0,
L(X;θ)=∏i(fa(xi;θ)(ϵi+δi)+o(|ϵi+δi|)+fd(xi;θ))=∏i(fa(xi;θ)(ϵi+δi)+fd(xi;θ)) + o(ϵ(θ)).
Das ist immer noch etwas chaotisch, aber es zeigt, wohin wir gehen. Bei zensierten Daten ist normalerweise nur ein Teil jedes Begriffs im Produkt ungleich Null, da diese Modelle normalerweise davon ausgehen, dass die Unterstützung des einzelnen Teils der Verteilung vom oberen Teil des kontinuierlichen Teils getrennt ist, unabhängig davon, um welchen Wert es sich handelt Parameter könnte sein. θf d ( x ) ≠ 0 F a ( x + ϵ ) - F a ( x - ϵ ) = o ( ϵ ) .(Insbesondere: impliziert können wir das Produkt in zwei Teile und die Beiträge aus alle Intervalle aus dem durchgehenden Teil:fd(x)≠0Fa(x+ϵ)−Fa(x−ϵ)=o(ϵ).
L(X;θ)=(∏i=1k(ϵi+δi))∏i=1kfa(xi;θ) ∏i=k+1nfd(xi;θ).
(Ohne Verlust der Allgemeinheit habe ich die Daten so indiziert, dass zum kontinuierlichen Teil beitragen und ansonsten beitragen der singuläre Teil der Wahrscheinlichkeit.)xi,i=1,2,…,kxi,i=k+1,k+2,…,n
Dieser Ausdruck macht das jetzt deutlich
Da die Intervallbreiten fest sind, tragen sie nicht zur Wahrscheinlichkeit bei (die nur bis zu einem positiven konstanten Vielfachen definiert ist).ϵi+δi
Dementsprechend können wir mit dem Ausdruck arbeiten
L(X;θ)=∏i=1kfa(xi;θ) ∏i=k+1nfd(xi;θ)
beim Erstellen von Wahrscheinlichkeitsverhältnissen oder beim Maximieren der Wahrscheinlichkeit. Das Schöne an diesem Ergebnis ist, dass wir nie die Größe der endlichen Intervalle kennen müssen, die in dieser Ableitung verwendet werden: Die Epsilons und Deltas fallen sofort aus. Wir müssen nur wissen, dass wir sie klein genug machen können, damit der Wahrscheinlichkeitsausdruck, mit dem wir tatsächlich arbeiten, eine angemessene Annäherung an den Wahrscheinlichkeitsausdruck darstellt, den wir verwenden würden, wenn wir die Intervallgrößen kennen würden.