Bestimmen des optimalen Schwellenwerts für binäre Entscheidungsregeln aus Beobachtungen mit unbekannten Prioritäten?


8

Wie kann ich die optimale Entscheidungsschwelle abschätzen, wenn nur Beobachtungen eines durch Gaußsches Rauschen gestörten binären Signals mit unbekannten vorherigen Informationen vorliegen?

(Nein, das ist keine Hausaufgabenfrage)

Insbesondere denke ich an das folgende Modell: ist eine Zufallsvariable mit zwei :( H 0 , H 1 )Y(H0,H1)

  • P(Y|H0)N(μ0,σ)
  • P(Y|H1)N(μ1,σ),μ0<μ1
  • P(H0)=π0
  • P(H1)=1π0

mit unbekannten Parametern: .μ0,μ1,σ,π0

Aus diesen Parametern könnte der Maximum a Posteriori Log-Likelihood-Schwellenwert berechnet werden, wenn ich sie kenne. Ich habe ursprünglich darüber nachgedacht, wie man zuerst die Parameter schätzt, um an den Schwellenwert . Aber ich denke, es könnte robuster sein, direkt zu schätzen .Y tYtYt

Gedanken: Durch Normalisieren der Beobachtungen (Subtrahieren des Stichprobenmittelwerts und Division durch Standardabweichung) wird der Parameterraum in zwei Dimensionen reduziert: π0 und σμ1μ0 .


Dieses Problem wäre viel einfacher, wenn Sie annehmen könnten, dass Pi0 0,5 ist. :-)
Jim Clay


Steht eine Trainingssequenz von Beobachtungen zur Schätzung der Mittelwerte, Varianzen usw. zur Verfügung? Oder erhalten Sie einfach eine Datensequenz, in der einige Werte von und einige von H 1 stammen , Sie aber nicht wissen, welche welche ist? H.0H.1
Dilip Sarwate

Antworten:


6

Meine Intuition ist, dass es schwierig sein würde, die richtige Entscheidungsschwelle abzuleiten, die Sie erwarten:

τ=12(μ0+μ1)- -σ2μ0- -μ12Logπ1- -π(μ0- -μ1)

Aus der globalen Statistik, die Sie in Betracht ziehen (Stichprobenmittelwert: ; Standardabweichung: komplexerer Ausdruck, aber ich bezweifle, dass es sich um ein Protokoll handelt).πμ0+(1- -π)μ1

Ich würde das Problem folgendermaßen angehen:

  1. Wenn die Annahme, dass klein ist, gemacht werden kannσ

    Ich erwähne das, weil man bedenkt, dass die Entscheidungsschwelle nur dann von beeinflusst wird, wenn σ ausreichend hoch ist, damit sich beide Klassen überlappen können. Wenn die μs um mehr als ein paar σ entfernt sind , haben Klassenvorwahrscheinlichkeiten im Entscheidungsprozess nichts zu sagen!πσμσ

    • Führen Sie k-Mittel auf Ihren Beobachtungen ( ist klein und wird von beiden Klassen geteilt, so k-Mittel ist in diesem Fall EM für das Mischmodell). Wenn Sie nur diese Beobachtungen und keine anderen Daten binärisieren möchten, können Sie hier aufhören.σ
    • Wenn Sie neue Beobachtungen zu binarisieren haben und wissen, dass sie durch denselben Prozess generiert werden, können Sie die mit k-means in Ihren Trainingsdaten gefundenen Klassenschwerpunkte als Schätzungen von und die Mitte als Entscheidungsschwelle verwenden.μ
  2. Wenn keine Annahme über kannσ

    • Führen Sie den EM-Algorithmus (mit gepoolter diagonaler Kovarianz) für Ihre Trainingsdaten aus. Verwenden Sie die abgeleiteten Variablen "Soft Class Membership", um Ihre Beobachtungen zu binarisieren.
    • τ

2

Zusammenfassend haben Sie zwei Verteilungen mit unbekannten Parametern und eine Messung, die möglicherweise aus einem der beiden stochastischen Prozesse stammt. Dies wird normalerweise als Datenassoziationsproblem bezeichnet und ist in der Tracking-Community sehr verbreitet und wird umfassend untersucht. Sie können einen PDAF-Algorithmus (Probability Data Association Filter) oder einen MHT-Algorithmus (Multi-Hypothesis Tracking) verwenden. Dies sollte Ihnen Schätzungen des Mittelwerts und der Varianz für jede Verteilung liefern.
Da Ihr Rauschen weiß und Gaußsch ist, sind ML, MAP und MMSE alternativ alle äquivalent und können durch Minimieren des mittleren quadratischen Fehlers (Kostenfunktion) ermittelt werden, wie dies in der vorherigen Antwort effektiv beschrieben wird. Ich würde einen dynamischen Programmieransatz verwenden, um das Minimum der Kostenfunktion zu finden. Dies sollte weniger komplex (rechnerisch) sein als die zuvor beschriebenen EM / Clustering-Methoden. Noch ein Kommentar: Der PDAF ist rekursiv. Angesichts des einfachen Signalmodells sollte es sehr effektiv funktionieren und ich erwarte einen Bruchteil der rechnerischen Komplexität des EM-Algorithmus. Viel Glück, -B


1

Es gibt einen Algorithmus von Kittler und Illingworth aus der Mitte der 1980er Jahre namens "Minimum Error Thresholding", der dieses Problem für Gaußsche Verteilungen löst. Kürzlich haben Mike Titterington (Universität Glasgow) und JH Xue (jetzt an der UCL) dies in einen formelleren statistischen Rahmen gestellt, siehe ihre gemeinsamen Veröffentlichungen in Fachzeitschriften.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.