Rekursives Aktualisieren der MLE, wenn neue Beobachtungen eingehen


15

Allgemeine Frage

Nehmen wir an, wir haben iid-Daten x1 , x2 , ... einströmen. Wir möchten die maximale Wahrscheinlichkeitsschätzung von \ boldsymbol {\ theta} rekursiv berechnen. . Das heißt, nachdem \ hat {\ boldsymbol {\ theta}} _ {n-1} = \ underset {\ boldsymbol {\ theta} \ in \ mathbb {R} ^ p} {\ arg \ max} \ prod_ {berechnet wurde i = 1} ^ {n-1} f (x_i \, | \, \ boldsymbol {\ theta}), wir beobachten ein neues x_n und möchten irgendwie unsere Schätzung inkrementell aktualisieren \ hat {\ boldsymbol {\ theta}} _ {n-1}, \, x_n \ bis \ hat {\ boldsymbol {\ theta}} _ {n}, ohne von vorne beginnen zu müssen. Gibt es dafür generische Algorithmen?f(x|θ)θ

θ^n1=argmaxθRpi=1n1f(xi|θ),
xnθ n - 1 ,
θ^n1,xnθ^n

Spielzeugbeispiel

Wenn x1 , x2 , ... N(x|μ,1) , dann hat

μ^n1=1n1i=1n1xiandμ^n=1ni=1nxi,
so
μ^n=1n[(n1)μ^n1+xn].


6
Vergessen Sie nicht die Umkehrung dieses Problems: Aktualisieren Sie den Schätzer, wenn alte Beobachtungen gelöscht werden.
Hong Ooi

Rekursive kleinste Quadrate (RLS) sind eine (sehr berühmte) Lösung für eine bestimmte Instanz dieses Problems, nicht wahr? Im Allgemeinen würde ich glauben, dass stochastische Filterliteratur nützlich sein könnte, um nachzuschlagen.
20.

Antworten:


13

Siehe das Konzept der Suffizienz und insbesondere der minimal ausreichenden Statistik . In vielen Fällen benötigen Sie die gesamte Stichprobe, um die Schätzung bei einer bestimmten Stichprobengröße zu berechnen, ohne die einfache Möglichkeit, eine Aktualisierung von einer um eine Größe kleineren Stichprobe durchzuführen (dh es gibt kein geeignetes allgemeines Ergebnis).

Wenn es sich bei der Verteilung um eine exponentielle Familie handelt (und in einigen anderen Fällen auch, die Uniform ist ein gutes Beispiel), gibt es eine ausreichende Statistik, die in vielen Fällen auf die von Ihnen gewünschte Weise aktualisiert werden kann (dh mit einer Reihe häufig verwendeter Verteilungen) ein schnelles Update).

Ein Beispiel, für das mir keine direkte Möglichkeit zur Berechnung oder Aktualisierung bekannt ist, ist die Schätzung des Standorts der Cauchy-Verteilung (z. B. mit Maßeinheit, um das Problem zu einem einfachen Ein-Parameter-Problem zu machen). Möglicherweise gibt es jedoch ein schnelleres Update, das ich einfach nicht bemerkt habe - ich kann nicht sagen, dass ich wirklich mehr getan habe, als einen Blick darauf zu werfen, um den Update-Fall zu prüfen.

Andererseits wäre bei MLEs, die über numerische Optimierungsmethoden erhalten werden, die vorherige Schätzung in vielen Fällen ein guter Ausgangspunkt, da die vorherige Schätzung in der Regel sehr nahe an der aktualisierten Schätzung liegt. zumindest in diesem sinne sollte eine schnelle aktualisierung oft möglich sein. Auch dies ist jedoch nicht der allgemeine Fall - bei multimodalen Wahrscheinlichkeitsfunktionen (siehe auch das Cauchy-Beispiel) kann eine neue Beobachtung dazu führen, dass der höchste Modus einen gewissen Abstand zum vorherigen Modus aufweist (auch wenn die Positionen der einzelnen Modi unterschiedlich sind) von den größten wenigen Modi hat sich nicht viel verschoben, der höchste könnte sich ändern).


1
Vielen Dank! Der Punkt über die mögliche Umschaltung der MLE-Modi auf Midstream ist besonders hilfreich, um zu verstehen, warum dies im Allgemeinen schwierig ist.
Jcz

1
Sie können dies anhand des obigen Cauchy-Modells im Einheitsmaßstab und der Daten (0.1,0.11,0.12,2.91,2.921,2.933) selbst beurteilen. Die logarithmische Wahrscheinlichkeit für den Ort der Moden liegt nahe 0,5 und 2,5, und der (geringfügig) höhere Peak liegt nahe 0,5. Nehmen Sie nun die nächste Beobachtung 10 vor und der Modus von jedem der beiden Peaks bewegt sich kaum, aber der zweite Peak ist jetzt wesentlich höher. Steigungsabstieg hilft dir nicht, wenn das passiert, es ist fast so, als würde man wieder von vorne anfangen. Wenn es sich bei Ihrer Population um eine Mischung aus zwei gleich großen Untergruppen mit unterschiedlichen Standorten handelt, können solche Umstände eintreten. ... ctd
Glen_b -Reinstate Monica

ctd ... auch in einer relativ großen Stichprobe. In der richtigen Situation kann die Modusumschaltung ziemlich häufig auftreten.
Glen_b

Eine Bedingung, die Multimodalität verhindert, besteht darin, dass die Wahrscheinlichkeit logarithmisch konkav bezüglich des Parametervektors für alle . Dies impliziert jedoch Einschränkungen für das Modell. n
Yves

Ja richtig; Ich habe mit mir selbst darüber diskutiert, ob ich das in der Antwort diskutieren soll.
Glen_b

4

Im maschinellen Lernen wird dies als Online-Lernen bezeichnet .

Wie @Glen_b hervorhob, gibt es spezielle Fälle, in denen die MLE aktualisiert werden kann, ohne auf alle vorherigen Daten zugreifen zu müssen. Wie er auch betont, glaube ich nicht, dass es eine generische Lösung gibt, um die MLE zu finden.

Ein ziemlich allgemeiner Ansatz, um die ungefähre Lösung zu finden, besteht darin, so etwas wie einen stochastischen Gradientenabstieg zu verwenden. In diesem Fall berechnen wir bei jeder eingehenden Beobachtung den Gradienten in Bezug auf diese einzelne Beobachtung und verschieben die Parameterwerte um einen sehr kleinen Betrag in diese Richtung. Unter bestimmten Bedingungen können wir zeigen, dass dies mit hoher Wahrscheinlichkeit zu einer Nachbarschaft der MLE konvergiert; Die Nachbarschaft wird immer enger, wenn wir die Schrittgröße verringern. Für die Konvergenz sind jedoch mehr Daten erforderlich. Diese stochastischen Methoden erfordern jedoch im Allgemeinen viel mehr Fummelei, um eine gute Leistung zu erzielen, als beispielsweise Aktualisierungen in geschlossener Form.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.