Der Zusammenhang zwischen Bayes'scher Statistik und generativer Modellierung


15

Kann mich jemand auf eine gute Referenz verweisen, die den Zusammenhang zwischen Bayes-Statistiken und generativen Modellierungstechniken erklärt? Warum verwenden wir normalerweise generative Modelle mit Bayes'schen Techniken?

Warum ist es besonders attraktiv, Bayes-Statistiken zu verwenden, wenn keine vollständigen Daten vorliegen, wenn überhaupt?

Beachten Sie, dass ich aus einer eher maschinell lernorientierten Sichtweise komme und mehr darüber in der Statistik-Community lesen möchte.

Jede gute Referenz, die diese Punkte bespricht, wäre sehr dankbar. Vielen Dank.


Ich habe den grundlegenden Unterschied zwischen adaptiven und generativen Transformationsmodi untersucht. Es scheint, dass Bayesian als statistisches Modell geeignet ist, adaptiv, aber nicht generativ zu studieren. Müssen zu dieser Schlussfolgerung sicherer kommen.

1
Hallo Srinidhi, willkommen auf der Seite. Dies ist eine Frage- und Antwortseite. Könnten Sie bitte Ihren Kommentar in eine Frage umformulieren? Je spezifischer eine Frage ist, desto wahrscheinlicher ist es, eine nützliche Antwort zu erhalten.
Naught101

Antworten:


12

Beim maschinellen Lernen wird ein Vollwahrscheinlichkeitsmodell p (x, y) als generativ bezeichnet, weil es zum Generieren der Daten verwendet werden kann, während ein Bedingungsmodell p (y | x) als diskriminativ bezeichnet wird, weil es kein Wahrscheinlichkeitsmodell für p (x) spezifiziert ) und kann nur mit x y erzeugen. Beides kann bayesianisch geschätzt werden.

Bei der Bayes'schen Schätzung geht es inhärent darum, ein vollständiges Wahrscheinlichkeitsmodell anzugeben und eine vom Modell und den Daten abhängige Inferenz durchzuführen. Viele Bayesianer fühlen sich dadurch generativ an. Für einen Bayesianer besteht der wichtige Unterschied jedoch nicht darin, wie die Daten generiert werden, sondern vielmehr darin, was erforderlich ist, um die posteriore Verteilung der unbekannten interessierenden Parameter zu erhalten.

Das Unterscheidungsmodell p (y | x) ist Teil eines größeren Modells mit p (y, x) = p (y | x) p (x). In vielen Fällen ist p (x) für die posteriore Verteilung der Parameter im Modell p (y | x) irrelevant. Insbesondere wenn die Parameter von p (x) von p (y | x) verschieden sind und die Prioren unabhängig sind, enthält das Modell p (x) keine Information über die unbekannten Parameter des bedingten Modells p (y | x). Ein Bayesianer muss es also nicht modellieren.


Auf einer intuitiveren Ebene besteht ein klarer Zusammenhang zwischen "Generieren von Daten" und "Berechnen der hinteren Verteilung". Rubin (1984) gibt die folgende hervorragende Beschreibung dieses Links:

Bildbeschreibung hier eingeben


Bayesianische Statistiken sind bei fehlenden Daten in erster Linie deshalb nützlich, weil sie eine einheitliche Methode zur Eliminierung von Störparametern darstellen - die Integration. Fehlende Daten können als (viele) Störparameter angesehen werden. Alternative Vorschläge wie das Einstecken des erwarteten Werts sind in der Regel schlecht, da wir fehlende Datenzellen selten mit hoher Genauigkeit abschätzen können. Hier ist Integration besser als Maximierung.

Diskriminative Modelle wie p (y | x) werden auch problematisch, wenn x fehlende Daten enthält, da wir nur Daten haben, um p (y | x_obs) zu schätzen, aber die meisten sinnvollen Modelle werden in Bezug auf die vollständigen Daten p (y | x) geschrieben. Wenn Sie ein Vollwahrscheinlichkeitsmodell p (y, x) haben und bayesisch sind, dann sind Sie in Ordnung, weil Sie die fehlenden Daten einfach wie jede andere unbekannte Größe überlagern können.


2

@Tristan: Ich hoffe, es macht Ihnen nichts aus, wenn ich Ihre Antwort überarbeite, während ich daran arbeite, den allgemeinen Punkt so transparent wie möglich zu machen.

Für mich die primäreEinsicht in die Statistik besteht darin, wiederholte Beobachtungen zu konzipieren, die variieren - wie sie von einem Wahrscheinlichkeitsmodell wie Normal (mu, sigma) erzeugt werden. Zu Beginn des 19. Jahrhunderts waren die Wahrscheinlichkeitsmodelle für Messfehler mit der Rolle von Parametern, wie z. B. mu und sigma und vorrangig für sie, meist nur durcheinander. Frequentistische Ansätze nahmen die Parameter als fest und unbekannt an und so umfassten die wahrscheinlichkeitsgenerierenden Modelle nur mögliche Beobachtungen. Bayesianische Ansätze (mit geeigneten Prioritäten) haben Wahrscheinlichkeitsmodelle sowohl für mögliche unbekannte Parameter als auch für mögliche Beobachtungen. Diese gemeinsamen Wahrscheinlichkeitsmodelle berücksichtigen umfassend alle - allgemeiner ausgedrückt - möglichen Unbekannten (wie Parameter) und Bekannten (wie Beobachtungen). Wie in dem Link von Rubin, den Sie gaben,

Dies wurde tatsächlich von Galton in einem zweistufigen Quincunx Ende des 19. Jahrhunderts sehr deutlich dargestellt. Siehe Abbildung 5> Stigler, Stephen M. 2010. Darwin, Galton und die Statistik

Erleuchtung. Zeitschrift der Royal Statistical Society: Reihe A 173 (3): 469-482 . .

Es ist äquivalent, aber vielleicht transparenter

posterior = prior (mögliche Unbekannte | mögliche Bekannte = Bekannte)

als posterior ~ prior (mögliche Unbekannte) * p (mögliche Unbekannte = bekannte | mögliche Unbekannte)

Nicht viel Neues für fehlende Werte im ersteren, da man nur mögliche Unbekannte für ein Wahrscheinlichkeitsmodell hinzufügt, das fehlende Werte erzeugt, und behandelt, die als nur eine der möglichen bekannten fehlen (dh die dritte Beobachtung fehlte).

In jüngster Zeit hat die ungefähre Bayes'sche Berechnung (ABC) diesen konstruktiven zweistufigen Simulationsansatz ernst genommen, wenn p (möglicherweise bekannt = möglicherweise unbekannt) nicht berechnet werden kann. Aber selbst wenn dies herausgefunden werden kann und der hintere Teil durch MCMC-Probenahme leicht zugänglich ist (oder selbst wenn der hintere Teil direkt verfügbar ist, weil er zuvor konjugiert war), sollte Rubins Aussage über diese zweistufige Probenahmekonstruktion, die ein einfacheres Verständnis ermöglicht, nicht übersehen werden.

Ich bin mir zum Beispiel sicher, es hätte gefangen, was @Zen hier gemacht hat. Bayesianer: Sklaven der Wahrscheinlichkeitsfunktion? denn man müsste ein mögliches unbekanntes c aus einem früheren Stadium (Stadium 1) ziehen und dann ein mögliches bekanntes (Daten) zeichnen, vorausgesetzt, dass c (Stadium 2) keine zufällige Erzeugung gewesen wäre, wie dies bei p (mögliche bekannte c) der Fall wäre keine Wahrscheinlichkeit gewesen, außer für ein und nur ein c.

fXichC(c) c

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.