Wie modelliere ich eine voreingenommene Münze mit zeitlich variierender Voreingenommenheit?


10

Modelle von voreingenommenen Münzen haben typischerweise einen Parameter . Eine Möglichkeit, aus einer Reihe von Ziehungen abzuschätzen, besteht darin, einen Beta-Prior zu verwenden und die posteriore Verteilung mit binomialer Wahrscheinlichkeit zu berechnen.θ=P(Head|θ)θ

In meinen Einstellungen ändern sich meine Münzeigenschaften aufgrund eines seltsamen physikalischen Prozesses langsam und wird eine Funktion der Zeit . Meine Daten sind eine Reihe von geordneten Zeichnungen, dh . Ich kann davon ausgehen, dass ich nur ein Unentschieden für jedes in einem diskreten und regelmäßigen Zeitraster habe.θt{H,T,H,H,H,T,...}t

Wie würden Sie das modellieren? Ich denke an so etwas wie einen Kalman-Filter, der an die Tatsache angepasst ist, dass die versteckte Variable und die Binomialwahrscheinlichkeit beibehält. Womit könnte ich modellieren , um die Inferenz nachvollziehbar zu halten?θP(θ(t+1)|θ(t))

Bearbeiten Sie die folgenden Antworten (danke!) : Ich möchte als Markov-Kette der Ordnung 1 modellieren , wie dies in HMM- oder Kalman-Filtern der Fall ist. Die einzige Annahme, die ich machen kann, ist, dass glatt ist. Ich könnte mit ein kleines Gaußsches Rauschen schreiben (Kalman-Filteridee), aber dies würde die Anforderung brechen, dass muss in bleiben . Nach der Idee von @J Dav könnte ich eine Probit-Funktion verwenden, um die reale Linie auf abzubilden , aber ich habe die Intuition, dass dies eine nicht analytische Lösung ergeben würde. Eine Beta-Verteilung mit Mittelwertθ(t)θ(t)P(θ(t+1)|θ(t))=θ(t)+ϵϵθ[0,1][0,1]θ(t) und eine größere Varianz könnte den Trick machen.

Ich stelle diese Frage, da ich das Gefühl habe, dass dieses Problem so einfach ist, dass es zuvor untersucht worden sein muss.


Sie können eine Schätzung erhalten, wenn Sie ein Modell dafür haben, wie sich der Erfolgsanteil mit der Zeit ändert. Viele verschiedene Modelle würden funktionieren und die Schätzungen könnten je nach angenommenem Modell stark variieren. Ich denke nicht, dass die Rückverfolgbarkeit ein praktisches Kriterium für die Auswahl eines Modells ist. Ich möchte den Prozess verstehen und nach einem Modell suchen, das Merkmale aufweist, die mit dem von Ihnen erwarteten Verhalten übereinstimmen.
Michael R. Chernick

@ MichaelChernick: Danke. Die einzige Annahme, die ich machen kann, ist, dass sich reibungslos und langsam bewegt. Darüber hinaus ist die Traktierbarkeit ein wichtiges Kriterium, da ich die Lösung tatsächlich auf multivariate Fälle mit nicht trivialen Abhängigkeiten ausweiten möchte. Eine ideale Lösung wäre eine Analyse und eine Online-Aktualisierung der Parameterschätzungen, wenn neue Daten eintreffen. θ
antwortete

1
Können Sie quantifizieren, was Sie unter " bewegt sich reibungslos und langsam" verstehen ? Die Ganzzahlen sind diskret, und es gibt glatte Funktionen, die beliebige Werte für die Ganzzahlen annehmen, was bedeutet, dass die Glätte keine Einschränkungen bietet. Einige Vorstellungen von "langsam" geben immer noch keine Einschränkungen, während andere dies tun. θ
Douglas Zare

Wie schnell ist "langsam", wie eine Änderung der Wahrscheinlichkeit von 0,1 / Zeiteinheit oder 0,001 oder ... Und wie lange erwarten Sie eine Sequenz? Ist der Bereich relativ eng (z. B. 0,2 - 0,4) oder kommt er (0,1) nahe?
Jbowman

@DouglasZare Mit 'glatt' wollte ich sagen, dass E [θ_t + 1 | θ_t] = θ_t (oder sehr nahe) und VAR (θ_t + 1 | θ_t) klein ist. θ springt nicht herum (sonst könnte eigentlich nichts gemacht werden).
antwortete

Antworten:


2

Ich bezweifle, dass Sie ein Modell mit analytischer Lösung entwickeln können, aber die Schlussfolgerung kann mit den richtigen Werkzeugen immer noch nachvollziehbar gemacht werden, da die Abhängigkeitsstruktur Ihres Modells einfach ist. Als Forscher für maschinelles Lernen würde ich es vorziehen, das folgende Modell zu verwenden, da die Schlussfolgerung mithilfe der Technik der Erwartungsausbreitung ziemlich effizient gemacht werden kann:

Sei das Ergebnis des ten Versuchs. Definieren wir den zeitvariablen ParameterX(t)t

η(t+1)N(η(t),τ2) für .t0

Um mit zu verknüpfen , führen Sie latente Variablen einη(t)X(t)

Y(t)N(η(t),β2) ,

und Modell seinX(t)

X(t)=1 wenn , und wenn nicht. Sie können tatsächlich ignorieren und sie marginalisieren, indem Sie einfach (mit cdf von) sagen Standard normal), aber die Einführung latenter Variablen erleichtert die Inferenz. Beachten Sie außerdem, dass in Ihrer ursprünglichen Parametrisierung .Y(t)0X(t)=0Y(t)P[X(t)=1]=Φ(η(t)/β)Φθ(t)=η(t)/β

Wenn Sie an der Implementierung des Inferenzalgorithmus interessiert sind, lesen Sie dieses Dokument . Sie verwenden ein sehr ähnliches Modell, sodass Sie den Algorithmus leicht anpassen können. Um EP zu verstehen, kann die folgende Seite nützlich sein. Wenn Sie an diesem Ansatz interessiert sind, lassen Sie es mich wissen. Ich kann detailliertere Ratschläge zur Implementierung des Inferenzalgorithmus geben.


0

Um auf meinen Kommentar einzugehen, ist ein Modell wie p (t) = exp (-t) ein Modell, das einfach ist und die Schätzung von p (t) durch Schätzung von Verwendung der Maximum-Likelihood-Schätzung ermöglicht. Aber nimmt die Wahrscheinlichkeit wirklich exponentiell ab? Dieses Modell wäre eindeutig falsch, wenn Sie Zeiträume mit hoher Erfolgshäufigkeit beobachten als früher und später. Das oszillatorische Verhalten könnte als p (t) = p | sint | modelliert werden . Beide Modelle sind sehr gut handhabbar und können mit maximaler Wahrscheinlichkeit gelöst werden, bieten jedoch sehr unterschiedliche Lösungen.000


1
Es scheint, dass das OP versucht, die Erfolgswahrscheinlichkeit zum Zeitpunkt , als markovschen Prozess zu modellieren und keine funktionale Form für anzugeben . tθ(t)θ(t)
Makro

1
@macro ist richtig, ich kann keine parametrische Form für bereitstellen , und dies ist nicht wünschenswert, da diese Funktion alles glatt sein könnte. Ich möchte ein Markov-Modell der Ordnung 1 ähnlich einem Hidden-Markov-Modell oder einem Kalman-Filter, aber mit einer versteckten Variablen, die reale Werte zwischen 0 und 1 annimmt, und mit einer Bernouilli-Wahrscheinlichkeit. theta(t)
antwortete

@pierre Okay, vor der Bearbeitung schien es, dass Sie die zeitlich variierende p schätzen wollten und nur das HMM als möglichen Ansatz vorschlugen. Ich habe keine funktionale Form empfohlen, wie sie sich mit t ändert. Ich machte darauf aufmerksam, dass ohne weitere Informationen viele Modelle verschiedener Typen konstruiert werden könnten, und meine beiden Beispiele sollten zeigen, dass Modellwahlen ohne weitere Informationen sehr unterschiedliche Antworten geben könnten. Warum sollten Sie auf einem HMM bestehen? Wenn man gearbeitet hat und Ihre Daten angepasst hat, warum sollte man sie ablehnen, weil sie "nicht analytisch" sind
?

Ich schlage vor, dass das Finden praktischer Lösungen nicht der Weg ist, um praktische statistische Probleme zu lösen!
Michael R. Chernick

1
@MichaelChernick Zuletzt: Ich würde gerne eine analytische Lösung finden, da ich hoffe, dass dies ein bekanntes Problem ist und die Leute eine ausreichend flexible analytische Lösung vorgeschlagen haben. Ich stimme jedoch unserem Vorschlag zu, dass die Modellierung der „realen Dynamik“ wichtiger ist als die Rechenkosten im Allgemeinen. Leider ist dies für Big Data und ein langsamer Algo wird nutzlos sein :-(
repied2

0

Ihre Wahrscheinlichkeit ändert sich mit aber wie Michael sagte, wissen Sie nicht wie. linear oder nicht? Es sieht aus wie ein Modellauswahlproblem, bei dem Ihre Wahrscheinlichkeit :tp

p=Φ(g(t,θ)) kann von einer stark nichtlinearen -Funktion abhängen . ist nur eine Begrenzungsfunktion, die zwischen 0 und 1 Wahrscheinlichkeiten garantiert.g(t,θ)Φ

Ein einfacher explorativer Ansatz wäre, mehrere Probits für mit unterschiedlichen nichtlinearen zu versuchen und eine -Modellauswahl basierend auf Standardinformationskriterien durchzuführen .Φg()g()

So beantworten Sie Ihre überarbeitete Frage:

Wie Sie sagten, würde die Verwendung von probit nur numerische Lösungen implizieren, aber Sie können stattdessen eine logistische Funktion verwenden:

Logistische Funktion:P[θ(t+1)]=11+exp(θ(t)+ϵ)

Linearisiert durch:logP1P=θ(t)+ϵ

Ich bin mir nicht sicher, wie dies unter dem Kalman-Filter-Ansatz funktionieren kann, glaube aber dennoch, dass eine nichtlineare Spezifikation wie oder viele andere ohne zufälligen Term dies tun wird mach den Job. Wie Sie sehen können, ist diese Funktion "smoth" in dem Sinne, dass sie kontinuierlich und differenzierbar ist. Leider würde das Hinzufügen von zu Sprüngen der resultierenden Wahrscheinlichkeit führen, was Sie nicht möchten. Mein Rat wäre daher, herauszunehmen .ϵ ϵθ(t+1)=at3+bt2+ct+dϵϵ

Logit-Wahrscheinlichkeit:P[Coint+1=H|t]=11+exp(θ(t))

Sie haben bereits Zufälligkeiten im bernoulli-Ereignis (Markov-Kette) und fügen aufgrund von eine zusätzliche Quelle hinzu . Somit könnte Ihr Problem als Probit oder Logit gelöst werden, geschätzt durch Maximum Likelihood mit als erklärende Variable. Ich nehme an, Sie stimmen zu, dass diese Sparsamkeit sehr wichtig ist. Es sei denn, Ihr Hauptziel ist es, eine bestimmte Methode (HMM und Kalman Filter) anzuwenden und nicht die einfachste gültige Lösung für Ihr Problem zu finden.tϵt


Wenn Sie ein Probit verwenden, ist eine multivariate Erweiterung unkompliziert, da ein multivariates Probit geschätzt werden kann. Abhängigkeiten würden durch die Kovarianzmatrix der implizierten multivariaten Normalverteilung impliziert.
JDav
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.