Warum sollte ich Bayesianer sein, wenn mein Modell falsch ist?


68

Änderungen: Ich habe ein einfaches Beispiel hinzugefügt: Rückschluss auf den Mittelwert von . Ich habe auch leicht geklärt, warum die glaubwürdigen Intervalle, die nicht mit den Konfidenzintervallen übereinstimmen, schlecht sind.Xi

Ich, ein ziemlich gläubiger Bayesianer, bin mitten in einer Art Glaubenskrise.

Mein Problem ist folgendes. Angenommen, ich möchte einige IID-Daten analysieren . Was ich tun würde, ist:Xi

  • Schlagen Sie zunächst ein Bedingungsmodell vor:

    p(X|θ)
  • Dann wähle ein Prior auf : p ( θ )θ

    p(θ)
  • Wenden Sie schließlich die Bayes-Regel an, berechnen Sie den posterioren Wert : (oder eine Annäherung daran, falls er nicht berechenbar sein sollte) und beantworten Sie alle Fragen, die ich zuθp(θ|X1Xn)θ

Dies ist ein vernünftiger Ansatz: Wenn das wahre Modell der Daten tatsächlich "innerhalb" meiner Bedingung liegt (es entspricht einem Wert von ), kann ich die statistische Entscheidungstheorie , um zu sagen, dass meine Methode zulässig ist (siehe Roberts) "Die Bayes'sche Wahl" für Details; "Alle Statistiken" liefert auch eine klare Darstellung im entsprechenden Kapitel.θ 0Xiθ0

Wie jeder weiß, ist die Annahme, dass mein Modell korrekt ist, ziemlich arrogant: Warum sollte die Natur ordentlich in die Schachtel der Modelle fallen, die ich in Betracht gezogen habe? Es ist viel realistischer anzunehmen, dass sich das reale Modell der Daten von für alle Werte von . Dies wird normalerweise als "falsch spezifiziertes" Modell bezeichnet.p ( X | θ ) θptrue(X)p(X|θ)θ

Mein Problem ist, dass ich in diesem realistischeren, falsch spezifizierten Fall keine guten Argumente dafür habe, Bayesianisch zu sein (dh die posteriore Verteilung zu berechnen), anstatt einfach den Maximum Likelihood Estimator (MLE) zu berechnen:

θ^ML=argmaxθ[p(X1Xn|θ)]

In der Tat laut Kleijn, vd Vaart (2012) , in dem falsch spezifizierten Fall die hintere Verteilung:

  • konvergiert als zu einer Dirac-Verteilung, die auf zentriert ist& thgr; M Lnθ^ML

  • hat nicht die richtige Varianz (es sei denn, zwei Werte sind zufällig gleich), um sicherzustellen, dass glaubwürdige Intervalle des posterioren Konfidenzintervalls für . (Beachten Sie, dass Konfidenzintervalle den Bayesianern offensichtlich nicht besonders wichtig sind. Dies bedeutet jedoch qualitativ, dass die posteriore Verteilung an sich falsch ist, da dies impliziert, dass die glaubwürdigen Intervalle keine korrekte Abdeckung haben.)θ

Daher zahlen wir eine Rechenprämie (Bayes'sche Inferenz ist im Allgemeinen teurer als MLE) für keine zusätzlichen Eigenschaften

Abschließend meine Frage: Gibt es theoretische oder empirische Argumente für die Verwendung der Bayes'schen Folgerung gegenüber der einfacheren MLE-Alternative, wenn das Modell falsch spezifiziert ist?

(Da ich weiß, dass meine Fragen oft unklar sind, lassen Sie es mich bitte wissen, wenn Sie etwas nicht verstehen: Ich werde versuchen, es anders zu formulieren.)

Bearbeiten: Betrachten wir ein einfaches Beispiel: Ableiten des Mittelwerts von unter einem Gaußschen Modell (mit bekannter Varianz , um es noch weiter zu vereinfachen). Wir betrachten einen Gaußschen Prior: Wir bezeichnen den Prior-Mittelwert, die inverse Varianz des Prior. Sei das empirische Mittel des . Schließlich sei angemerkt: . σ μ 0 β 0 X X i μ = ( β 0 μ 0 + nXiσμ0β0X¯Xiμ=(β0μ0+nσ2X¯)/(β0+nσ2)

Die hintere Verteilung ist:

p(θ|X1Xn)exp((β0+nσ2)(θμ)2/2)

In dem richtig spezifizierten Fall (wenn die wirklich eine Gaußsche Verteilung haben) hat dieser Posterior die folgenden schönen EigenschaftenXi

  • Wenn die aus einem hierarchischen Modell generiert werden, in dem ihr gemeinsamer Mittelwert aus der vorherigen Verteilung ausgewählt wird, haben die posterioren glaubwürdigen Intervalle eine genaue Abdeckung. Abhängig von den Daten ist die Wahrscheinlichkeit, dass sich in einem Intervall befindet, gleich der Wahrscheinlichkeit, die der Posterior diesem Intervall zuschreibt θXiθ

  • Auch wenn der Prior nicht korrekt ist, haben die glaubwürdigen Intervalle eine korrekte Abdeckung in dem Bereich in dem der vorherige Einfluss auf den Posterior verschwindetn

  • der posterior hat weiterhin gute frequentistische Eigenschaften: Jeder aus dem posterior konstruierte Bayes'sche Schätzer ist garantiert zulässig, der posteriore Mittelwert ist ein effizienter Schätzer (im Cramer-Rao-Sinne) der mittleren, glaubwürdigen Intervalle sind asymptotisch Konfidenzintervalle.

Im falsch spezifizierten Fall werden die meisten dieser Eigenschaften von der Theorie nicht garantiert. Um Ideen zu korrigieren, nehmen wir an, dass das reale Modell für das ist, dass es sich stattdessen um Student-Verteilungen handelt. Die einzige Eigenschaft, die wir garantieren können (Kleijn et al.), Ist, dass sich die posteriore Verteilung auf den realen Mittelwert des im Grenzwert . Im Allgemeinen würden alle Bedeckungseigenschaften verschwinden. Schlimmer noch, wir können im Allgemeinen garantieren, dass die Abdeckungseigenschaften innerhalb dieser Grenze von Grund auf falsch sind: Die posteriore Verteilung schreibt verschiedenen Regionen des Raums die falsche Wahrscheinlichkeit zu.X i n XiXin


2
Nun, Bayesianische Ansätze regulieren sich. Dies hilft gegen Überanpassung - unabhängig davon, ob Ihr Modell falsch spezifiziert ist oder nicht. Dies führt natürlich nur zu der damit verbundenen Frage nach Argumenten für Bayes'sche Folgerungen gegen regularisierte klassische Ansätze (Lasso, Gratregression, elastisches Netz usw.).
S. Kolassa - Wiedereinsetzung von Monica am

3
Vielleicht interessieren Sie sich für diese Arbeit und ihre Verwandten.
Dougal

7
Wenn Ihr Modell in Bezug auf die Verwendung der falschen Wahrscheinlichkeitsfunktion falsch spezifiziert ist, sind sowohl die MLE- als auch die Bayes'schen Schätzungen falsch ...
Tim

5
@Tim: Die MLE- und die Bayes'sche Inferenz sind im falsch spezifizierten Fall nicht bedeutungslos: Beide versuchen, den Parameterwert , der die Daten innerhalb der bedingten Modelle am besten berücksichtigt. Genauer gesagt ist das Argmin von wobei KL die Kullback-Leibler-Divergenz ist. Unter milden Annahmen identifizieren sowohl als auch Bayes-Inferenz diese korrekt, wenn sie mit einer ausreichenden Datenmenge versehen sind ~ θ 0KL[p(X),p(X|θ)] ~ θ 0θ~0θ~0KL[p(X),p(X|θ)]θ~0
Guillaume Dehaene,

3
@amoeba Ich stelle mir einen Bayesianischen Hardcore-Look vor und benehme mich wie Comandante Che
Aksakal,

Antworten:


31

Ich betrachte den Bayes'schen Ansatz, wenn mein Datensatz nicht alles ist, was über das Thema bekannt ist, und möchte dieses exogene Wissen irgendwie in meine Prognose einbeziehen.

Zum Beispiel möchte mein Kunde eine Prognose der Kreditausfälle in seinem Portfolio. Sie haben 100 Kredite mit einigen Jahren von vierteljährlichen historischen Daten. Es gab ein paar Fälle von Zahlungsverzug und nur ein paar Ausfälle. Wenn ich versuche, das Überlebensmodell für diesen Datensatz zu schätzen, sind nur sehr wenige Daten zu schätzen und zu viele Unsicherheiten zu prognostizieren.

Andererseits sind die Portfoliomanager erfahrene Personen, von denen einige Jahrzehnte damit verbracht haben, Beziehungen zu Kreditnehmern zu pflegen. Sie haben Ideen, wie die Ausfallraten aussehen sollten. Sie sind also in der Lage, vernünftige Prioritäten zu setzen. Beachten Sie , nicht der priors der schönen mathematische Eigenschaften haben und schauen intellektuell ansprechend zu mir . Ich werde mit ihnen plaudern und ihre Erfahrungen und Kenntnisse in Form dieser Vorgesetzten extrahieren.

Das Bayes'sche Gerüst wird mir nun die Möglichkeit geben, das exogene Wissen in Form von Prioren mit den Daten zu verbinden und den Posterioren zu erhalten, der meiner Meinung nach sowohl der reinen qualitativen Beurteilung als auch der reinen datengetriebenen Vorhersage überlegen ist. Dies ist keine Philosophie und ich bin kein Bayesianer. Ich verwende nur die Bayes'schen Werkzeuge, um Expertenwissen konsequent in die datengetriebene Schätzung einzubeziehen.


3
Ein sehr schöner Punkt. Die Bayes'sche Folgerung bietet einen Rahmen, um genau eine Aufgabe zu lösen, wie Sie sie gestellt haben. Danke.
Guillaume Dehaene

5
Dies ist ein allgemeines Argument für die Bayes'sche Modellierung, aber in welcher Beziehung steht es zum konkreten Fall eines falsch spezifizierten Modells? Ich sehe keine Verbindung.
Richard Hardy

4
Nun, es bezieht sich auf meine Frage: Selbst in dem falsch spezifizierten Fall kann die Bayes'sche Inferenz qualitative Informationen über den Stand der Technik besser (dh auf eine prinzipiellere Weise) verarbeiten als MLE-Methoden, die mit Regularisierern arbeiten müssten. Es ist eine Form von empirischen Argumenten, warum Bayes-Inferenz etwas besser ist als MLE.
Guillaume Dehaene

2
@Aksakal, ob Modelle falsch spezifiziert sind, ist nebensächlich. Es geht mir darum, dass Sie die Frage nicht beantworten. (Wenn das OP nicht einverstanden ist, hat er meiner Meinung nach bei der Formulierung der Frage schlechte Arbeit geleistet.) Aber ich sehe, dass es kürzlich eine Änderung gegeben hat, sodass die Frage vielleicht inzwischen geändert wurde.
Richard Hardy

4
@RichardHardy, ich denke, meine Antwort geht in den Kern der Glaubenskrise von OP, die von dem Gedanken getrieben wird, dass, wenn Ihr bedingtes Modell falsch spezifiziert wird, es den Prior mit zunehmender Stichprobengröße überwältigt und Ihr Posterior in Richtung des falschen Modells verschoben wird . In diesem Fall fragt er, warum man sich anfangs um Bayesian kümmert, und warum man nicht einfach nur MLE macht. Mein Beispiel ist entschieden nicht philosophisch, sondern praktisch: Es geht oft nicht nur um endliche, sondern um kleine Stichproben. So werden Ihre Daten den hinteren Teil nicht zu weit vom vorherigen ziehen, was das exogene Wissen darstellt.
Aksakal

25

Eine sehr interessante Frage ... die vielleicht keine Antwort hat (aber das macht es nicht weniger interessant!)

Ein paar Gedanken (und viele Links zu meinen Blogeinträgen!) Darüber, dass alle Modelle falsch sind :

  1. Während das hypothetische Modell in der Tat fast immer und unwiderruflich falsch ist , ist es dennoch sinnvoll, in Bezug auf dieses Modell effizient oder kohärent zu handeln, wenn dies das Beste ist, was man tun kann. Die resultierende Folgerung führt zu einer Bewertung des formalen Modells, das dem tatsächlichen Datenerzeugungsmodell (falls vorhanden) "am nächsten" liegt.
  2. Es gibt Bayes'sche Ansätze, die ohne das Modell auskommen. Ein aktuelles Beispiel sind die Arbeiten von Bissiri et al. (mit meinen Kommentaren ) und von Watson und Holmes (die ich mit Judith Rousseau besprochen habe );
  3. In verbundener Weise gibt es einen ganzen Zweig der Bayes'schen Statistik, der sich mit M-offenen Inferenzen befasst .
  4. Und noch eine Richtung, die ich sehr mag, ist der SafeBayes- Ansatz von Peter Grünwald , der Modellfehlspezifikationen berücksichtigt, um die Wahrscheinlichkeit durch eine herabgestufte Version zu ersetzen, die als Potenz der ursprünglichen Wahrscheinlichkeit ausgedrückt wird.
  5. Das kürzlich erschienene Read Paper von Gelman und Hennig befasst sich mit diesem Thema, wenn auch in umständlicher Weise (und ich habe einige Kommentare zu meinem Blog hinzugefügt ). Ich nehme an, Sie könnten Material für eine Diskussion aus den Einträgen zu Ihrer Frage sammeln.
  6. In gewissem Sinne sollten sich die Bayesianer unter den Statistikern und Modellierern über diesen Aspekt am wenigsten Gedanken machen, da das Stichprobenmodell als eine von mehreren vorherigen Annahmen zu betrachten ist und das Ergebnis von all diesen vorherigen Annahmen abhängig oder relativ ist .

2
Es ist sehr schön, deine Meinung dazu zu haben. Ihr erster Punkt macht intuitiv Sinn: Wenn das Modell nicht zu falsch ist, sollte das Ergebnis unserer Schlussfolgerung in Ordnung sein. Hat jemand jemals ein solches Ergebnis bewiesen (oder die Frage empirisch untersucht)? Ihr letzter Punkt (den ich möglicherweise falsch verstanden habe) lässt mich ratlos werden: Das Stichprobenmodell ist eine wichtige Wahl. Die Tatsache, dass wir auch Entscheidungen treffen, bedeutet nicht, dass Fehler bei der Auswahl des Stichprobenmodells nicht das gesamte Modell beeinträchtigen können. Vielen Dank für die Hinweise und den wunderbaren Blog.
Guillaume Dehaene

Warum nicht für Punkt 1. die Bayes'sche Modellmittelung? Warum nur das "beste" Modell verwenden?
Innisfree

@innisfree: Es hängt alles davon ab, was du mit dem Ergebnis vorhast. Ich habe keine Religion in Bezug auf die Modellmittelung im Vergleich zum besten Modell.
Xi'an

1
Sie scheinen zu vermuten, dass es einen entscheidungs-theoretischen Aspekt bei der Mittelung der Modellunsicherheit gibt und nicht, dass nur das beste Modell ausgewählt wird. Es ist sicherlich immer von Vorteil, dh es hilft, bessere Entscheidungen zu treffen, wenn alle Unsicherheiten, einschließlich Modellunsicherheiten, kohärent berücksichtigt werden.
Innisfree

2
Mein Hauptargument gegen die Nicht-Parametrik ist praktisch: Sie sind im Vergleich zu einfacheren Alternativen um mehrere Größenordnungen rechenintensiver. Haben wir nicht auch Probleme mit Nicht-Parametrik, weil es für zwei frühere Distributionen fast unmöglich ist, eine gemeinsame Unterstützung zu haben? Das bedeutet, dass der Prior einen starken Einfluss haben würde und es für bayesianische Statistiker (fast) unmöglich wäre, eine Einigung zu erzielen, wenn sie von verschiedenen Prioren ausgehen.
Guillaume Dehaene

12

Bearbeitungen: Verweis auf dieses Papier im Hauptteil hinzugefügt , wie vom OP gefordert.


Ich gebe hier eine Antwort als naiver empirischer Bayesianer.

Erstens können Sie mit der posterioren Verteilung Berechnungen durchführen, die Sie mit einem einfachen MLE einfach nicht durchführen können. Der einfachste Fall ist, dass der Posterior von heute der Prior von morgen ist . Die Bayes'sche Inferenz ermöglicht natürlich sequentielle Aktualisierungen oder allgemein Online-Aktualisierungen oder eine verzögerte Kombination mehrerer Informationsquellen (die Einbeziehung eines Prior ist nur eine Lehrbuchinstanz einer solchen Kombination). Ein weiteres Beispiel ist die Bayes'sche Entscheidungstheorie mit einer nichttrivialen Verlustfunktion. Ich würde nicht wissen, was ich sonst tun soll.

Zweitens versuche ich mit dieser Antwort zu argumentieren, dass das Mantra, dass die Quantifizierung der Unsicherheit im Allgemeinen besser ist als keine Unsicherheit, effektiv eine empirische Frage ist, da Theoreme (wie Sie erwähnt haben und soweit ich weiß) keine Garantien bieten.

Optimierung als Spielzeugmodell wissenschaftlichen Handelns

Eine Domäne, die meines Erachtens die Komplexität des Problems vollständig erfasst, ist eine sehr praktische, sinnlose, die Optimierung einer Black-Box- Funktion . Wir nehmen an, dass wir nacheinander einen Punkt abfragen und eine möglicherweise verrauschte Beobachtung mit . Unser Ziel ist es, möglichst nahe an mit der minimalen Anzahl von Funktionsbewertungen heranzukommen.f:XRDRxXy=f(x)+εεN(0,σ2)x=argminxf(x)

Ein besonders effektiver Weg, um fortzufahren, ist, wie Sie vielleicht erwarten, ein Vorhersagemodell dessen zu erstellen, was passieren würde, wenn ich ein beliebiges , und anhand dieser Informationen zu entscheiden, was als nächstes zu tun ist (oder) lokal oder global). Siehe Rios und Sahinidis (2013) für einen Überblick über derivative-freie globale Optimierungsmethoden. Wenn das Modell komplex genug ist, spricht man von einem Metamodell- oder Ersatzfunktions- oder Antwortoberflächenansatz . Entscheidend könnte das Modell eine Punktschätzung von (z. B. die Anpassung einer radialen Basisnetzfunktion an unsere Beobachtungen), oder wir könnten bayesisch sein und auf irgendeine Weise eine vollständige posteriore Verteilung überxXff (zB über einen Gaußschen Prozess).

Die Bayes'sche Optimierung verwendet den posterioren über (insbesondere den gemeinsamen bedingten posterioren Mittelwert und die Varianz an jedem Punkt), um die Suche nach dem (globalen) Optimum über eine prinzipielle Heuristik zu steuern. Die klassische Wahl besteht darin, die erwartete Verbesserung gegenüber dem derzeit besten Punkt zu maximieren. Es gibt jedoch auch ausgefeiltere Methoden, z. B. die Minimierung der erwarteten Entropie über den Ort des Minimums (siehe auch hier ).f

Das empirische Ergebnis ist, dass der Zugang zu einem Posterior, auch wenn er teilweise falsch spezifiziert ist, im Allgemeinen bessere Ergebnisse liefert als andere Methoden. (Es gibt Vorbehalte und Situationen, in denen die Bayes'sche Optimierung nicht besser ist als die Zufallssuche, z. B. in großen Dimensionen.) In diesem Artikel wird eine empirische Bewertung einer neuartigen BO-Methode im Vergleich zu anderen Optimierungsalgorithmen durchgeführt, um zu prüfen, ob die Verwendung von BO zweckmäßig ist in der Praxis mit vielversprechenden Ergebnissen.

Seit Sie gefragt haben, hat dies einen viel höheren Rechenaufwand als andere nicht-bayesianische Methoden, und Sie haben sich gefragt, warum wir bayesianisch sein sollten. Hierbei wird davon ausgegangen, dass die Kosten für die Bewertung der wahren (z. B. in einem realen Szenario, einem komplexen Engineering oder einem Experiment zum maschinellen Lernen) viel höher sind als die Rechenkosten für die Bayes'sche Analyse, sodass sich Bayes'sche Analyse auszahlt .f

Was können wir aus diesem Beispiel lernen?

Erstens, warum funktioniert die Bayes'sche Optimierung überhaupt? Ich vermute, dass das Modell falsch ist, aber nicht so falsch, und wie üblich hängt die Falschheit davon ab, wofür Ihr Modell ist. Zum Beispiel ist die genaue Form von für die Optimierung nicht relevant, da wir eine monotone Transformation davon optimieren könnten. Ich denke, die Natur ist voll von solchen Invarianzen. Die Suche, die wir durchführen, ist möglicherweise nicht optimal (dh wir werfen gute Informationen weg), aber immer noch besser als ohne Unsicherheitsinformationen.f

Zweitens hebt unser Beispiel hervor, dass es möglich ist, dass der Nutzen eines Bayesianismus vom Kontext abhängt , z. B. von den relativen Kosten und der Menge der verfügbaren (rechnerischen) Ressourcen. (Wenn Sie ein Hardcore-Bayesianer sind, glauben Sie natürlich, dass jede Berechnung eine Bayesianische Folgerung unter einer gewissen Vorab- und / oder Annäherungsbedingung ist.)

Die große Frage ist schließlich, warum die Modelle, die wir verwenden, überhaupt nicht so schlecht sind , in dem Sinne, dass die Hintermänner immer noch nützlich und kein statistischer Müll sind. Wenn wir das No-Free-Lunch-Theorem verwenden, sollten wir anscheinend nicht viel sagen können, aber zum Glück leben wir nicht in einer Welt von völlig zufälligen (oder nach dem Zufallsprinzip ausgewählten ) Funktionen.

Allgemeiner, da Sie das "philosophische" Tag setzen ... Ich denke, wir betreten den Bereich des Problems der Induktion oder der unvernünftigen Wirksamkeit der Mathematik in den statistischen Wissenschaften (insbesondere unserer mathematischen Intuition und der Fähigkeit, Modelle zu spezifizieren) das funktioniert in der Praxis) - in dem Sinne, dass es aus rein a priori Sicht keinen Grund gibt, warum unsere Vermutungen gut sein sollten oder irgendeine Garantie haben sollten (und Sie können sicher mathematische Gegenbeispiele erstellen, in denen die Dinge schief gehen), aber sie drehen sich in der Praxis gut zu arbeiten.


2
Geniale Antwort. Vielen Dank für Ihren Beitrag. Gibt es eine Überprüfung / einen fairen Vergleich der Bayes'schen Optimierung mit normalen Optimierungstechniken, die zeigt, dass die Bayes'sche Version empirisch besser ist, wie Sie behaupten? (Ich bin ganz gut darin, Sie beim Wort zu nehmen, aber ein Hinweis wäre nützlich)
Guillaume Dehaene

1
Vielen Dank! Ich denke, dass die probabilistische Numerik mehrere theoretische und empirische Argumente enthält. Mir ist kein Benchmark bekannt, der BO-Methoden wirklich mit Standardmethoden vergleicht, aber [ Warnung auslösen: schamloser Stecker ] Ich arbeite derzeit auf dem Gebiet der Computational Neuroscience an etwas in dieser Richtung. Ich plane, einige der Ergebnisse auf arXiv zu stellen, hoffentlich in den nächsten Wochen.
Lacerbi

In der Tat hat zumindest ihre Abbildung 2 einen klaren Vergleich. Könnten Sie bitte Ihre Arbeit zu Ihrer Hauptfrage hinzufügen, sobald sie fertig ist? Ich denke, es wäre eine wertvolle Ergänzung.
Guillaume Dehaene

Ja - das ist ihre Methode für die adaptive Bayes'sche Quadratur, was eine ziemlich coole Idee ist (in der Praxis hängt ihre Wirksamkeit davon ab, ob die GP-Approximation funktioniert; dies ist oft fast gleichbedeutend damit, dass Sie eine vernünftige Parametrisierung Ihres Problems haben). Ich werde den Link zur Antwort hinzufügen, wenn meine Arbeit verfügbar ist, danke.
Lacerbi

1
@IMA: Entschuldigung, ich glaube nicht, dass ich 100% deinen Standpunkt verstehe. Ich habe die Black-Box-Optimierung als Spielzeugmodell für das wissenschaftliche Unterfangen genommen. Ich glaube, Sie können dieser einfacheren (aber immer noch unglaublich komplexen) Domäne viele Schritte und Probleme der "Wissenschaft" zuordnen. Die Annahme des "Gaußschen Rauschens" ist für mein Argument nicht erforderlich, sondern dient nur der Einfachheit. Optimierungsprobleme in der Praxis (z. B. im Engineering) können durch nicht-Gaußsches Rauschen gestört werden, und das ist etwas, mit dem man sich befassen muss. Und Gaußprozesse nicht brauchen Gaussian Beobachtungsrauschen (obwohl es leicht macht , Inferenz).
Lacerbi

10

Ich sehe das nur heute, aber ich denke trotzdem, ich sollte mich einmischen, dass ich eine Art Experte bin und dass mindestens zwei Antworten (Nr. 3 und 20 (danke für den Hinweis auf meine Arbeit Xi'an!)) Meine Arbeit über erwähnen SafeBayes - insbesondere G. und van Ommen, "Inkonsistenz der Bayes'schen Inferenz für falsch spezifizierte lineare Modelle und ein Vorschlag für deren Reparatur" (2014). Und zu Kommentar 2 möchte ich noch etwas hinzufügen:

2 sagt: (Ein Vorteil von Bayes bei falscher Spezifikation ist ...) "Nun, Bayes'sche Ansätze regulieren. Das ist etwas, um einer Überanpassung entgegenzuwirken - unabhängig davon, ob Ihr Modell falsch spezifiziert ist oder nicht. Das führt natürlich nur zu der damit verbundenen Frage nach Argumente für Bayesianische Folgerungen gegen regularisierte klassische Ansätze (Lasso usw.)

Dies ist wahr, aber es ist wichtig hinzuzufügen, dass Bayes'sche Ansätze möglicherweise nicht genug regulieren wenn das Modell falsch ist. Dies ist der Hauptpunkt der Arbeit mit Van Ommen - wir sehen dort, dass Standard-Bayes in einem gewissen Regressionskontext mit falschen, aber sehr nützlichen Modellen ziemlich schrecklich überpassen. Nicht so schlimm wie MLE, aber dennoch viel zu viel, um nützlich zu sein. Es gibt eine ganze Reihe von Arbeiten im (frequentistischen und spieltheoretischen) theoretischen maschinellen Lernen, bei denen ähnliche Methoden wie bei Bayes angewendet werden, die jedoch eine viel geringere „Lernrate“ aufweisen - wodurch die Priorität und die Daten weniger wichtig werden und somit mehr reguliert werden. Diese Methoden sind so konzipiert, dass sie im schlimmsten Fall (Fehlspezifikation und noch schlimmer widrige Daten) gut funktionieren - der SafeBayes-Ansatz ist so konzipiert, dass aus den Daten selbst die optimale Lernrate und diese optimale Lernrate, dh die optimale Menge, gelernt wird der Regularisierung,

In ähnlicher Weise gibt es einen Folk-Satz (der von mehreren oben erwähnt wurde), der besagt, dass Bayes das hintere Konzentrat auf die Verteilung haben wird, die in der KL-Divergenz der 'Wahrheit' am nächsten kommt. Dies gilt jedoch nur unter sehr strengen Bedingungen - VIEL strenger als die Bedingungen, die für die Konvergenz im genau festgelegten Fall erforderlich sind. Wenn Sie es mit niedrigdimensionalen parametrischen Standardmodellen zu tun haben und die Daten einer gewissen Verteilung entsprechen (nicht im Modell), konzentriert sich der Posterior in der Tat um den Punkt im Modell, der der Wahrheit in der KL-Divergenz am nächsten kommt. Wenn Sie es mit großen nichtparametrischen Modellen zu tun haben und das Modell korrekt ist, wird sich Ihr Posterior (im Wesentlichen) immer noch auf die wahre Verteilung konzentrieren, wenn genügend Daten vorliegen. Solange Ihr Vorgänger genügend Masse in kleinen KL-Bällen um die wahre Verteilung legt. Dies ist dasschwache Bedingung, die für die Konvergenz im nichtparametrischen Fall benötigt wird, wenn das Modell korrekt ist.

Wenn Ihr Modell jedoch nicht parametrisch und dennoch falsch ist, konzentriert sich der Posterior möglicherweise nicht auf den nächstgelegenen KL-Punkt, auch wenn Ihre vorherige Masse dort nahe 1 (!) Liegt - Ihr Posterior bleibt möglicherweise für immer verwirrt und konzentriert sich auf immer unterschiedliche Verteilungen im laufe der zeit aber nie um die beste. In meinen Papieren habe ich einige Beispiele dafür. Die Papiere, die Konvergenz bei falscher Spezifikation aufweisen (z. B. Kleijn und van der Vaart), erfordern viele zusätzliche Bedingungen, z. B. muss das Modell konvex sein oder der Prior muss bestimmte (komplizierte) Eigenschaften aufweisen. Das meine ich mit "strengen" Bedingungen.

In der Praxis haben wir es häufig mit parametrischen, aber sehr hochdimensionalen Modellen zu tun (denken Sie an die Bayes'sche Gratregression usw.). Wenn das Modell dann falsch ist, wird sich Ihr Posterior eventuell auf die beste KL-Verteilung im Modell konzentrieren, aber eine Miniversion der nichtparametrischen Inkonsistenz ist noch gültig: Es kann Größenordnungen mehr Daten erfordern, bevor Konvergenz eintritt - wieder meine Arbeit mit Van Ommen nennt Beispiele.

Der SafeBayes-Ansatz modifiziert Standard-Bayes so, dass die Konvergenz in nichtparametrischen Modellen unter (im Wesentlichen) den gleichen Bedingungen wie im gut spezifizierten Fall gewährleistet ist, dh eine ausreichende Vormasse in der Nähe der KL-optimalen Verteilung im Modell (G. und Mehta, 2014) ).

Dann stellt sich die Frage, ob Bayes überhaupt eine Rechtfertigung für eine falsche Angabe hat. IMHO (und wie auch von mehreren oben erwähnten Personen erwähnt), gelten die Standardbegründungen von Bayes (Zulässigkeit, Savage, De Finetti, Cox usw.) hier nicht (denn wenn Sie erkennen, dass Ihr Modell falsch spezifiziert ist, stimmen Ihre Wahrscheinlichkeiten nicht mit Ihren wahren Überzeugungen überein !). Viele Bayes-Methoden können jedoch auch als MDL-Methoden (Minimum Description Length) interpretiert werden. MDL ist eine informationstheoretische Methode, die das Lernen aus Daten mit dem Versuch gleichsetzt, die Daten so weit wie möglich zu komprimieren. Diese Datenkomprimierungsinterpretation von (einigen) Bayes'schen Methoden bleibt bei falscher Angabe gültig. So gibt es immer noch einigeGrundlegende Interpretation, die sich bei falscher Spezifikation behaupten kann - trotzdem gibt es Probleme, wie meine Arbeit mit van Ommen (und das im ursprünglichen Beitrag erwähnte Konfidenzintervall / Glaubwürdigkeitsproblem) zeigt.

Und noch eine abschließende Bemerkung zum Originalbeitrag: Sie erwähnen die "Zulässigkeits" -Begründung von Bayes (zurückgehend auf Walds komplette Klasse in den 1940er / 50er Jahren). Ob dies wirklich eine Rechtfertigung für Bayes ist oder nicht, hängt sehr stark von der genauen Definition der Bayes'schen Folgerung ab (die von Forscher zu Forscher unterschiedlich ist ...). Der Grund dafür ist, dass diese Zulässigkeitsergebnisse die Möglichkeit bieten, dass ein Prior verwendet wird, der von Aspekten des Problems wie Stichprobengröße und interessierender Verlustfunktion usw. abhängt Daten, die sie verarbeiten müssen, oder wenn die Verlustfunktion von Interesse plötzlich geändert wird. Zum Beispiel mit streng konvexen Verlustfunktionen, Minimax-Schätzer sind ebenfalls zulässig - obwohl sie normalerweise nicht als Bayes-Schätzer angesehen werden! Der Grund dafür ist, dass sie für jede feste Stichprobengröße Bayes mit einem bestimmten Vorgänger entsprechen, der Vorgänger jedoch für jede Stichprobengröße unterschiedlich ist.

Hoffe das ist nützlich!


2
Willkommen bei CrossValidated und vielen Dank für die Beantwortung dieser Frage. Ein kleiner Hinweis: Sie können sich nicht darauf verlassen, dass die Antworten in der Reihenfolge sortiert werden, in der Sie sie sehen. Unterschiedliche Personen können in unterschiedlicher Reihenfolge sortieren (es gibt eine Auswahl verschiedener Sortierkriterien am oberen Rand der am höchsten platzierten Antwort), und zwei dieser Kriterien ändern sich im Laufe der Zeit. Das heißt, wenn Sie sie als "Nr. 3 und 20" bezeichnen, wissen die Leute nicht, welche Antworten Sie meinen. [Ich kann auch nur zehn Antworten finden.]
Glen_b

1
Vielen Dank für eine tolle Antwort Peter. Ich bin verwirrt über Ihre Bemerkung, dass die Bayes'sche Folgerung in dem falsch spezifizierten Fall sehr starke Annahmen erfordert. Auf welche Annahmen beziehen Sie sich ausdrücklich? Sprechen Sie von der Bedingung, dass der Posterior zu einer Dirac-Verteilung auf den besten Parameterwert konvergieren muss? oder sprechen sie über die eher technischen bedingungen der wahrscheinlichkeit, die eine asymptotische normalität gewährleisten?
Guillaume Dehaene

Okay, danke an Glen B (Moderator) - ich werde dies von nun an im Hinterkopf behalten.
Peter Grünwald

Guillaume - Ich aktualisiere das Obige, um Ihren Kommentar zu berücksichtigen
Peter Grünwald

7

Es gibt den üblichen Bias-Varianz-Kompromiss. Bayesianische Inferenz unter der Annahme eines M-geschlossenen Falls [1,2] hat eine geringere Varianz [3], aber im Fall einer Modellfehlspezifikation wächst die Verzerrung schneller [4]. Es ist auch möglich, eine Bayes'sche Inferenz unter der Annahme eines offenen M-Falls [1,2] durchzuführen, der eine höhere Varianz aufweist [3], aber im Fall einer Modellfehlspezifikation ist die Verzerrung kleiner [4]. Die Auswirkungen dieses Bias-Varianz-Kompromisses zwischen Bayes'schen M-geschlossenen und M-offenen Fällen tauchen auch in einigen der Referenzen auf, die in den nachstehenden Referenzen enthalten sind, aber es besteht eindeutig Bedarf an mehr.

[1] Bernardo und Smith (1994). Bayesianische Theorie. John Wiley \ & Söhne.

[2] Vehtari und Ojanen (2012). Eine Übersicht über Bayes'sche Vorhersagemethoden für die Bewertung, Auswahl und den Vergleich von Modellen. Statistics Surveys, 6: 142-228. http://dx.doi.org/10.1214/12-SS102

[3] Juho Piironen und Aki Vehtari (2017). Vergleich der Bayes'schen Vorhersagemethoden für die Modellauswahl. Statistics and Computing, 27 (3): 711-735. http://dx.doi.org/10.1007/s11222-016-9649-y .

[4] Yao, Vehtari, Simpson und Andrew Gelman (2017). Verwendung des Stapelns zur Mittelung der Bayes'schen Vorhersageverteilung. arXiv-Vorabdruck arXiv: 1704.02030 arxiv.org/abs/1704.02030


7

Hier sind einige andere Möglichkeiten, die Bayes'sche Folgerung in falsch spezifizierten Modellen zu rechtfertigen.

  • Sie können ein Konfidenzintervall für den posterioren Mittelwert mithilfe der Sandwich-Formel erstellen (auf die gleiche Weise wie beim MLE). Selbst wenn die glaubwürdigen Mengen keine Abdeckung haben, können Sie dennoch gültige Konfidenzintervalle für Punktschätzer erstellen, wenn Sie daran interessiert sind.

  • Sie können die posteriore Verteilung neu skalieren, um sicherzustellen, dass glaubwürdige Mengen abgedeckt sind.

Müller, Ulrich K. "Risiko der Bayes'schen Inferenz in falsch spezifizierten Modellen und der Sandwich-Kovarianz-Matrix." Econometrica 81.5 (2013): 1805 & ndash; 1849.

  • Es gibt eine nicht-asymptotisch Rechtfertigung für Bayes - Regel: die technischen Voraussetzungen Weglassen, wenn der Stand ist und die Log-Likelihood ist , dann die hintere ist die Verteilung , die minimiert vorbei alle Distributionen . Der erste Begriff ähnelt einem erwarteten Nutzen: Sie möchten eine Masse für Parameter erstellen, die eine hohe Wahrscheinlichkeit ergeben. Der zweite Term regelt: Sie wollen eine kleine KL-Abweichung zum Prior. Diese Formel sagt ausdrücklich aus, was der hintere Teil optimiert. Es wird häufig im Zusammenhang mit der Quasi-Wahrscheinlichkeit verwendet, bei der Personen die Log-Wahrscheinlichkeit durch eine andere Utility-Funktion ersetzen.p(θ)n(θ)n(θ)dν(θ)+log(ν(θ)p(θ))dν(θ)ν(θ)

Vielen Dank für das Muller-Papier: Ich denke, es beantwortet viele der Fragen, die ich habe.
Guillaume Dehaene

6

Nehmen wir an, dass sich das reale Modell der Daten für alle Werte von von unterscheidetptrue(X)p(X|θ)θ

Bayesian Interpretation dieser Annahme ist , dass es eine zusätzliche Zufallsvariable und ein Wert in seinem Bereich so dass . Ihr Vorwissen besagt und . Dann ist was nicht die richtige Wahrscheinlichkeitsverteilung ist.φ 0 φ 0P ( X | θ , φ = φ 0 ) d θ = 0ϕϕ0ϕ0p(X|θ,ϕ=ϕ0)dθ=0p(ϕ=ϕ0)1p(ϕϕ0)=0p(θ|X,ϕ=ϕ0)=0

Dieser Fall entspricht einer ähnlichen Inferenzregel in der Logik, in der , dh Sie können aus einem Widerspruch nichts schließen. Das Ergebnis ist eine Art und Weise, in der die Bayes'sche Wahrscheinlichkeitstheorie Ihnen sagt, dass Ihr Vorwissen nicht mit Ihren Daten übereinstimmt. Wenn jemand dieses Ergebnis bei der Ableitung des Seitenzahns nicht erzielt, bedeutet dies, dass die Formulierung nicht alle relevanten Vorkenntnisse codiert. Zur Einschätzung dieser Situation übergebe ich Jaynes (2003, S.41):A,¬Ap(θ|X,ϕ=ϕ0)=0

... es ist ein leistungsfähiges analytisches Werkzeug, das eine Reihe von Aussagen heraussucht und einen Widerspruch in ihnen aufdeckt, falls einer existiert. Das Prinzip ist, dass Wahrscheinlichkeiten, die von widersprüchlichen Prämissen abhängig sind, nicht existieren (der Hypothesenraum wird auf die leere Menge reduziert). Setzen Sie deshalb unseren Roboter an die Arbeit; dh ein Computerprogramm schreiben , um Wahrscheinlichkeiten zu berechnen bedingt auf einer Reihe von Sätzen Auch wenn kein Widerspruch von der Inspektion ergibt, wenn es ein Widerspruch in versteckt istp(B|E)E=(E1,E2,,En)Ewird das Computerprogramm abstürzen. Wir haben dies "empirisch" entdeckt und nach einiger Überlegung festgestellt, dass dies kein Grund zur Bestürzung ist, sondern ein wertvolles Diagnosewerkzeug, das uns vor unvorhergesehenen Sonderfällen warnt, in denen unsere Problemformulierung zusammenbrechen kann.

Mit anderen Worten, wenn Ihre Problemformulierung ungenau ist - wenn Ihr Modell falsch ist, können Sie mithilfe der Bayes'schen Statistik herausfinden, ob dies der Fall ist, und herausfinden, welcher Aspekt des Modells die Ursache des Problems ist.

In der Praxis ist möglicherweise nicht ganz klar, welches Wissen relevant ist und ob es in die Ableitung einbezogen werden sollte. Anschließend werden verschiedene Modellprüftechniken (Kapitel 6 und 7 in Gelman et al., 2013, geben einen Überblick) verwendet, um eine ungenaue Problemformulierung herauszufinden und zu identifizieren.

A. Gelman, JB Carlin, HS Stern, DB Dunson, A. Vehtari & DB Rubin (2013). Bayesianische Datenanalyse, 3. Auflage. Chapman & Hall / CRC.

Jaynes, ET (2003). Wahrscheinlichkeitstheorie: Die Logik der Wissenschaft. Cambridge University Press.


1
Ihrer Antwort fehlt der Sinn und es wird eine einfachere Situation betrachtet. Ich betrachte keine Situation, in der unser Modell so falsch ist, dass es mit den Daten inkonsistent ist. Ich betrachte eine Situation, in der unser Modell falsch ist, aber nicht katastrophal. Denken Sie beispielsweise daran, den Mittelwert von abzuleiten . Sie könnten ein Gaußsches Modell des als Inferenz verwenden, obwohl das reale Modell Laplace ist. In diesem einfachen Beispiel ist das Modell falsch, aber es wird nicht so "explodieren", wie Sie es beschreiben. XiXi
Guillaume Dehaene

1
@ GuillaumeDehaene Ihre Frage war, ob es einige Argumente für die Verwendung von Bayes gibt, wenn das Modell falsch spezifiziert ist. Katastrophal falsch spezifiziertes Modell ist eindeutig falsch spezifiziert. Außerdem können Sie nicht im Voraus wissen, ob Ihr Modell katastrophal falsch oder nur falsch spezifiziert ist. Tatsächlich kann bayes Ihnen genau das sagen, was es nützlich macht, und meine Antwort hat darauf hingewiesen.
Matus

Wenn es nicht katastrophal falsch ist, unterscheidet sich die Abdeckung nicht so stark von . Sie könnten eine Simulation dieses normalen Modells mit Laplace-Daten schreiben, um dies zu überprüfen. Der konzeptionelle Nutzen wäre immer vorhanden. Denken Sie darüber nach: Wenn Sie sich dazu entschließen, Ihren Seitenzahn aus dem Fenster zu werfen, würden Sie nicht nur den MLE, sondern auch ein gewisses Konfidenzintervall berechnen. Wir wissen jedoch, dass die Interpretation des CI, die für EIN bestimmtes Experiment berechnet wurde, sinnlos ist. Entspannen Sie sich und genießen Sie das bayesianische Bier. Wenn Sie verstehen, dass das Modell falsch angegeben ist, verwenden Sie diese Informationen, um ein besseres zu erstellen. 1α
Zen

@ GuillaumeDehaene Ja, meine Antwort ist nicht erschöpfend. Ich erweitere es gerne, um nicht katastrophale Fälle zu klären, aber Sie müssen angeben, was Sie im Sinn haben: Meinen Sie, dass wo ist eine kleine Zahl, so dass klein ist? Oder sagen Sie, dass es so dass dennoch oder etwas anderes? Ich bin mit Zen einverstanden, dass der hintere Teil in diesen weniger schweren Fällen im Allgemeinen nicht stark betroffen ist, obwohl man einen Grenzfall konstruieren könnte. p(X,θ|ϕ=ϕ0)dθ=kkp(X|ϕ=ϕ0)θ=θ0p(θ=θ0|ϕ=ϕ0)=0p(X,θ=θk|ϕ=ϕ0)>0
Matus

5

Die MLE ist weiterhin ein Schätzer für einen Parameter in einem Modell, das Sie angeben und als korrekt annehmen. Die Regressionskoeffizienten in einem häufig auftretenden OLS können mit dem MLE geschätzt werden, und alle Eigenschaften, die Sie ihm zuordnen möchten (unverzerrt, eine bestimmte asymptotische Varianz), setzen voraus, dass Ihr ganz bestimmtes lineares Modell korrekt ist.

Ich gehe noch einen Schritt weiter und sage, dass Sie jedes Mal, wenn Sie einem Schätzer Bedeutung und Eigenschaften zuweisen möchten, ein Modell annehmen müssen. Selbst wenn Sie einen einfachen Stichprobenmittelwert nehmen, gehen Sie davon aus, dass die Daten austauschbar sind und häufig eine IID aufweisen.

Bayes'sche Schätzer haben viele wünschenswerte Eigenschaften, die ein MLE möglicherweise nicht hat. Zum Beispiel partielle Zusammenfassung, Regularisierung und Interpretierbarkeit eines Seitenzahns, die es in vielen Situationen wünschenswert machen.


Sie müssen keine IID annehmen, damit ein Mittelwert Bedeutung gibt. Es reicht aus, die Austauschbarkeit anzunehmen (aber das ist immer noch eine Annahme ...)
kjetil b halvorsen

@kjetil b halvorsen Danke, ich habe aus Gründen der Übersichtlichkeit editiert.
TrynnaDoStat

4

Ich empfehle die Philosophie von Gelman & Shalizi und die Praxis der Bayes'schen Statistik . Sie haben kohärente, detaillierte und praktische Antworten auf diese Fragen.

Wir denken, dass die meisten dieser erhaltenen Ansichten über Bayesianische Folgerungen falsch sind. Bayes'sche Methoden sind nicht induktiver als jede andere Art der statistischen Inferenz. Die Bayes'sche Datenanalyse ist aus hypothetisch-deduktiver Sicht viel besser zu verstehen . Die beste Bayes'sche Praxis impliziert eine Haltung, die trotz ihrer häufigeren Ausrichtung viel mit dem fehlerstatistischen Ansatz von Mayo (1996) zu tun hat. In der Tat können entscheidende Teile der Bayes'schen Datenanalyse, wie die Modellprüfung, als "Fehlersonden" im Sinne von Mayo verstanden werden.

Wir gehen von einer Kombination aus der Untersuchung konkreter Fälle der Bayes'schen Datenanalyse in der empirischen sozialwissenschaftlichen Forschung und theoretischen Ergebnissen zur Konsistenz und Konvergenz der Bayes'schen Aktualisierung aus. Die sozialwissenschaftliche Datenanalyse ist für unsere Zwecke besonders wichtig, da allgemein anerkannt wird, dass in diesem Bereich alle verwendeten Modelle falsch sind - nicht nur fälschbar, sondern tatsächlich falsch. Mit genügend Daten - und oft nur einer relativ moderaten Menge - könnte jeder Analyst jedes derzeit verwendete Modell mit jedem gewünschten Maß an Vertrauen ablehnen . Die Modellanpassung ist jedoch eine wertvolle Aktivität und in der Tat der Kern der Datenanalyse. Um zu verstehen, warum dies so ist, müssen wir untersuchen, wie Modelle gebaut, angepasst, verwendet und geprüft werden und welche Auswirkungen eine Fehlspezifikation auf Modelle hat.

...

Aus unserer Sicht ist die Darstellung des letzten Absatzes [der Bayesianischen Standardauffassung] ausgesprochen falsch. Der Datenanalyseprozess - Bayesian oder auf andere Weise - endet nicht mit der Berechnung von Parameterschätzungen oder posterioren Verteilungen. Das Modell kann dann vielmehr überprüft werden, indem die Implikationen des angepassten Modells mit den empirischen Nachweisen verglichen werden. Man fragt sich, ob Simulationen aus dem angepassten Modell den Originaldaten ähneln, ob das angepasste Modell mit anderen Daten übereinstimmt, die nicht für die Anpassung des Modells verwendet wurden, und ob Variablen, die das Modell als Rauschen ("Fehlerterme") bezeichnet tatsächlich leicht erkennbare Muster anzeigen. Diskrepanzen zwischen Modell und Daten können genutzt werden, um festzustellen, inwieweit das Modell für die vorliegenden wissenschaftlichen Zwecke nicht geeignet ist, und um so Erweiterungen und Änderungen des Modells zu motivieren (Abschnitt 4.).


2

Ich denke, Sie beschreiben einen Einfluss der Modellunsicherheit - Sie befürchten, dass Ihre Schlussfolgerung über einen unbekannten Parameter im Lichte der Daten von einem Modell, , sowie den Daten, abhängig ist . Was ist, wenn ein unplausibles Modell ist? Wenn es alternative Modelle existieren, mit dem gleichen unbekannten Parameter , dann können Sie Modellunsicherheit mit Bayesian Model Averaging, marginalisieren obwohl dies ein funktionales der betrachteten Modelle und ihrer Vorgesetzten.xdm

p(x|d,m),
mx
p(x|d)=mp(x|d,m)p(m|d)

Wenn andererseits die Definition des Parameters untrennbar mit dem Modell , so dass es keine Alternativen gibt, ist es kaum überraschend, dass Schlussfolgerungen über von abhängig sind . xmxm


3
Die Modellmittelung kann uns nicht retten: Es ist immer noch dumm anzunehmen, dass das wahre Modell irgendwie in den Anwendungsbereich unseres größeren Modells fällt. Mit dem Modellvergleich können wir feststellen, welches von mehreren Modellen die Daten am besten berücksichtigt. Dies gibt jedoch nur ein falsches Modell zurück, das weniger falsch als die anderen Modelle ist.
Guillaume Dehaene

Dies kann Ihnen dabei helfen, Rückschlüsse / Schätzungen auf eine unbekannte Größe zu ziehen, bei denen die Modellunsicherheit kohärent berücksichtigt wird. Es kann jedoch keine neuen Hypothesen für Sie erfinden. Wenn es eine statistische Maschinerie gäbe, die Modelle im Lichte von Daten erfindet, wäre z. B. die Wissenschaft viel einfacher.
Innisfree

1

Wie definieren Sie, was ein "falsch angegebenes" Modell ist? Bedeutet das das Modell ...

  • macht "schlechte" Vorhersagen?
  • hat nicht die Form für ein "wahres Modell"? pT(x)
  • Fehlt ein Parameter?
  • führt zu "schlechten" Schlussfolgerungen?

Wenn Sie überlegen, wie ein bestimmtes Modell falsch angegeben werden könnte, extrahieren Sie im Wesentlichen Informationen darüber, wie Sie ein besseres Modell erstellen können. Fügen Sie diese zusätzlichen Informationen in Ihr Modell ein!

Wenn Sie sich überlegen, was ein "Modell" im Bayes'schen Framework ist, können Sie immer ein Modell erstellen, das nicht falsch angegeben werden kann. Eine Möglichkeit, dies zu tun, besteht darin, Ihrem aktuellen Modell weitere Parameter hinzuzufügen. Durch Hinzufügen weiterer Parameter wird Ihr Modell flexibler und anpassungsfähiger. Maschinelles Lernen nutzt diese Idee voll aus. Dies liegt Dingen wie "Kernnetzwerken" und "Regressionsbäumen" zugrunde. Sie müssen jedoch über Prioritäten nachdenken (ähnlich wie beim Regularisieren für ML).

Sie haben zum Beispiel das "lineare Modell" als Beispiel angegeben, also haben Sie ... Wobei . Nehmen wir nun an, wir fügen für jede Beobachtung einen neuen Parameter hinzu .... Wobei
e iN ( 0 , 1 ) Modell 2:  x i = θ + σ e i

model 1: xi=θ+σei
eiN(0,1) eiN(0,1)
model 2: xi=θ+σeiwi

eiN(0,1)θ

wiN(0,1)


xf(x)
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.