In Kevin Murphys "Maschinelles Lernen: Eine probabilistische Perspektive", Kapitel 3.2, demonstriert der Autor das Bayes'sche Konzeptlernen an einem Beispiel namens "Zahlenspiel": Nachdem wir Proben aus , wollen wir Wählen Sie eine Hypothese die die Regel, die die Stichproben generiert hat, am besten beschreibt. Zum Beispiel "gerade Zahlen" oder "Primzahlen".{ 1 , . . . , 100 } h
Die maximalen a-posteriori und maximalen Wahrscheinlichkeitsschätzungen sind definiert als:
wobei die vorherigen Wahrscheinlichkeiten verschiedener Hypothesen darstellt und der hintere definiert ist als:
iff , dh wie wahrscheinlich ist es, dass eine einheitliche Stichprobe mit Ersetzung aus der Hypothese set \ mathcal {D} ergibt . Intuitiv bedeutet dies, dass der hintere Teil für "kleinste" Hypothesen am höchsten ist. Zum Beispiel erklären Hypothesen "Potenzen von 2" Beobachtungen besser als "gerade Zahlen".
All dies ist klar. Ich bin jedoch verwirrt über den folgenden Satz (obwohl er intuitiv vollkommen sinnvoll ist):
Da der Wahrscheinlichkeitsterm exponentiell von abhängt und der vorherige konstant bleibt, wenn wir mehr und mehr Daten erhalten, konvergiert die MAP-Schätzung gegen die maximale Wahrscheinlichkeitsschätzung.
Es ist wahr , dass die Wahrscheinlichkeit exponentiell abhängt , jedoch ist die potenzierte Zahl in dem Intervall und als , , so dass die Wahrscheinlichkeit , dass tatsächlich sollte verschwinden.( 0 , 1 ) N → ∞ x N → 0
Warum konvergiert MAP in diesem Fall zu MLE?