Stimmt es, dass Bayesianer keine Testsätze benötigen?

Ich habe kürzlich diesen Vortrag von Eric J. Ma gesehen und in seinem Blogeintrag , in dem er Radford Neal zitiert, überprüft , dass Bayes'sche Modelle nicht überpassen (aber sie können überpassen ), und wenn wir sie verwenden, benötigen wir keine Testsätze, um sie zu validieren (z In den Anführungszeichen geht es eher um die Verwendung eines Validierungssatzes zum Anpassen der Parameter. Ehrlich gesagt überzeugen mich die Argumente nicht und ich habe keinen Zugang zu dem Buch. Könnten Sie also detailliertere und strengere Argumente für oder gegen eine solche Aussage vorbringen?

In der Zwischenzeit hat Eric Ma mir diese Diskussion zum gleichen Thema gezeigt.

— Tim
quelle

Ein großes Loch in diesem Argument in Bezug auf dieses Gespräch: Wenn Sie MCMC machen und den posterioren Bereich nicht vollständig erforschen, ist Ihre Schlussfolgerung völlig ungültig. Wenn Sie auf ein Bayesian Neural Network schließen, haben Sie mit ziemlicher Sicherheit nicht sehr große Teile des Seitenzahns mit MCMC untersucht. Daher sollten Sie Ihre Daten besser aufteilen, um Ihre Schlussfolgerung zu überprüfen!

— Cliff AB

Eine zu berücksichtigende Sache ist, was wir bewerten oder validieren. Es kann sein, dass wir nicht alle Informationen verwenden, die wir haben (entweder vorher oder wahrscheinlich). Die Überprüfung der Modellanpassung kann bei der Beantwortung dieser Frage hilfreich sein.

— Wahrscheinlichkeitslogik

Wenn wir "das eine wahre Modell" und "wahre Prioritäten" verwenden, die einige angemessen erfasste Vorinformationen widerspiegeln, dann hat ein Bayesianer meines Wissens wirklich kein Überanpassungsproblem, und diese posteriore Vorhersageverteilung bei sehr wenigen Daten wird angemessen ungewiss sein . Wenn wir jedoch ein pragmatisch gewähltes Modell verwenden (dh wir haben entschieden, dass z. B. die Gefährdungsrate über die Zeit konstant ist und ein Exponentialmodell angemessen ist oder z. B. dass eine Kovariate nicht im Modell = Punkt vor dem Koeffizienten Null liegt), mit einigen Standardmäßig nicht informative oder regulierende Prioritäten, dann wissen wir wirklich nicht, ob dies noch gilt. In diesem Fall ist die Auswahl von (Hyper-) Priors willkürlich, was zu guten Vorhersagen außerhalb der Stichprobe führen kann oder nicht.

Daher ist es sehr vernünftig, die Frage zu stellen, ob die Auswahl der Hyperparameter (= Parameter der Hyperprioren) in Kombination mit der gewählten Wahrscheinlichkeit gut funktioniert. Tatsächlich können Sie leicht entscheiden, dass es eine gute Idee ist, Ihre Hyperparameter zu optimieren, um die gewünschte Vorhersageleistung zu erzielen. Aus dieser Perspektive ist ein Validierungssatz (oder eine Kreuzvalidierung) zur Abstimmung von Hyperparametern und ein Testsatz zur Bestätigung der Leistung absolut sinnvoll.

Ich denke, dies hängt eng mit einer Reihe von Diskussionen über Andrew Gelman in seinem Blog zusammen (siehe z. B. Blogeintrag 1 , Blogeintrag 2 , Blogeintrag 3 zu LOO für Stan und Diskussionen zu posterioren prädiktiven Überprüfungen), in denen er seine Bedenken in Bezug auf die (in gewissem Sinne richtig) behauptet, dass ein Bayesianer nicht prüfen sollte, ob sein Modell sinnvoll ist und welche praktische Bayes'sche Modellbewertung vorliegt.

Natürlich sind wir sehr oft am meisten daran interessiert, Bayes'sche Methoden in Umgebungen zu verwenden, in denen es nur wenige vorherige Informationen gibt und wir etwas informative Prioritäten verwenden möchten. An diesem Punkt kann es etwas schwierig werden, genügend Daten zu haben, um mit der Validierung und Auswertung eines Testsatzes irgendwohin zu gelangen.

— Björn
quelle

Also beantwortete ich die Frage zur Überanpassung, auf die Sie verweisen, und schaute mir das Video an und las den Blog-Beitrag. Radford Neal sagt nicht, dass Bayes'sche Modelle nicht überpassen. Denken wir daran, dass Überanpassung das Phänomen ist, dass Rauschen als Signal behandelt und in die Parameterschätzung einbezogen wird. Dies ist nicht die einzige Ursache für Modellauswahlfehler. Neals Diskussion ist jedoch breiter, indem er sich auf die Idee einer kleinen Stichprobengröße wagt, die er in die Diskussion über Überanpassung wagt.

Lassen Sie mich meine vorherige Veröffentlichung teilweise überarbeiten, dass Bayes'sche Modelle an alle Bayes'schen Modelle angepasst werden können, dies jedoch auf eine Weise, die die Vorhersage verbessert. Zurück zur Definition der Verwechslung von Signal und Rauschen: Die Unsicherheit in den Bayes'schen Methoden, die posteriore Verteilung, ist die Quantifizierung dieser Unsicherheit darüber, was Signal und was Rauschen ist. Dabei stauen Bayes'sche Methoden Rauschen in Signalschätzungen ein, da der gesamte Posterior für Inferenz und Vorhersage verwendet wird. Überanpassung und andere Ursachen für Modellklassifizierungsfehler sind eine andere Art von Problem bei Bayes'schen Methoden.

Lassen Sie uns zur Vereinfachung die Struktur von Ma's Vortrag übernehmen und uns auf die lineare Regression konzentrieren und die Diskussion über tiefes Lernen vermeiden, da die alternativen Methoden, die er erwähnt, nur Zusammensetzungen von Funktionen sind und eine direkte Verbindung zwischen der Logik der linearen besteht Regression und tiefes Lernen.

Betrachten Sie das folgende mögliche Modell Erstellen wir eine breite Stichprobe der Größe die aus zwei Teilstichproben besteht, , wobei der Trainingssatz und der Validierungssatz ist. Wir werden sehen, warum Bayes'sche Methoden mit einigen Einschränkungen kein separates Trainings- und Validierungsset benötigen.

y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{3} x_{3} .

$y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3.$

N

$N$

n_{1}, n_{2}

$n_1,n_2$

n_{1}

$n_1$

n_{2}

$n_2$

Für diese Diskussion müssen wir acht weitere Parameter erstellen, einen für jedes Modell. Sie sind . Sie folgen einer multinomialen Verteilung und haben ebenso wie die Regressionskoeffizienten die richtigen Prioritäten. Die acht Modelle sind und $m_1\dots{_8}$

y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{3} x_{3},

$y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3,$

y = β_{0},

$y=\beta_0,$

y = β_{0} + β_{1} x_{1},

$y=\beta_0+\beta_1x_1,$

y = β_{0} + β_{2} x_{2},

$y=\beta_0+\beta_2x_2,$

y = β_{0} + β_{3} x_{3},

$y=\beta_0+\beta_3x_3,$

y = β_{0} + β_{1} x_{1} + β_{2} x_{2},

$y=\beta_0+\beta_1x_1+\beta_2x_2,$

y = β_{0} + β_{1} x_{1} + β_{3} x_{3},

$y=\beta_0+\beta_1x_1+\beta_3x_3,$

y = β_{0} + β_{2} x_{2} + β_{3} x_{3},

$y=\beta_0+\beta_2x_2+\beta_3x_3,$

y = β_{0} + β_{1} x_{1},

$y=\beta_0+\beta_1x_1,$

y = β_{0} + β_{2} x_{2},

$y=\beta_0+\beta_2x_2,$

y = β_{0} + β_{3} x_{3} .

$y=\beta_0+\beta_3x_3.$

Jetzt müssen wir uns mit den Unterschieden zwischen Bayes'schen und Frequentistischen Methoden befassen. Im Trainingssatz wählt der Modellierer mit Frequentist-Methoden nur ein Modell aus. Der Modellierer, der Bayes'sche Methoden verwendet, ist nicht so eingeschränkt. Obwohl der Bayes'sche Modellierer ein Modellauswahlkriterium verwenden könnte, um nur ein Modell zu finden, können sie auch die Modellmittelung verwenden. Dem Bayes'schen Modellierer steht es auch frei, ausgewählte Modelle im Midstream des Validierungssegments zu ändern. Moreso, der Modellierer, der Bayes'sche Methoden verwendet, kann zwischen Auswahl und Mittelwertbildung mischen und anpassen. $n_1,$

Um ein reales Beispiel zu geben, habe ich 78 Insolvenzmodelle getestet. Von den 78 Modellen betrug die kombinierte posteriore Wahrscheinlichkeit von 76 etwa ein Zehntausendstel von einem Prozent. Die beiden anderen Modelle waren rund 54 Prozent bzw. 46 Prozent. Zum Glück teilten sie auch keine Variablen. Dadurch konnte ich beide Modelle auswählen und die anderen 76 ignorieren. Als ich alle Datenpunkte für beide hatte, habe ich ihre Vorhersagen basierend auf den hinteren Wahrscheinlichkeiten der beiden Modelle gemittelt und nur ein Modell verwendet, wenn ich fehlende Datenpunkte hatte, die das ausschlossen andere. Ich hatte zwar ein Trainingsset und ein Validierungsset, aber nicht aus dem gleichen Grund, aus dem ein Frequentist sie haben würde. Darüber hinaus habe ich am Ende eines jeden Tages über zwei Geschäftszyklen hinweg meine Posterioren mit den Daten jedes Tages aktualisiert. Das bedeutete, dass mein Modell am Ende des Validierungssatzes nicht das Modell am Ende des Trainingssatzes war. Bayesianische Modelle hören nicht auf zu lernen, während es häufig vorkommende Modelle tun.

Um tiefer zu gehen, lassen Sie uns mit unseren Modellen konkret werden. Nehmen wir an, dass während des Trainingsbeispiels das am besten passende Frequentist-Modell und das Bayes'sche Modell unter Verwendung der Modellauswahl übereinstimmten oder dass das Modellgewicht bei der Modellmittelung so groß war, dass es vom Frequentist-Modell kaum zu unterscheiden war. Wir werden uns vorstellen, dass dieses Modell Stellen wir uns auch vor, dass das wahre Modell in der Natur

y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{3} x_{3} .

$y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3.$

y = β_{0} + β_{1} x_{1} + β_{3} x_{3} .

$y=\beta_0+\beta_1x_1+\beta_3x_3.$

Betrachten wir nun den Unterschied im Validierungssatz. Das Frequentist-Modell ist an die Daten angepasst. Nehmen wir an, dass zu einem bestimmten Zeitpunkt die Modellauswahl oder das Validierungsverfahren die Auswahl in das wahre Modell der Natur geändert hat. Wenn die Modellmittelung verwendet wurde, hatte das wahre Modell in der Natur Gewicht in der Vorhersage, lange bevor die Auswahl der Modelle eindeutig war. ET Jaynes diskutiert in seinem Band zur Wahrscheinlichkeitstheorie einige Zeit mit diesem Thema. Ich habe das Buch bei der Arbeit, daher kann ich Ihnen kein gutes Zitat geben, aber Sie sollten es lesen. Die ISBN lautet 978-0521592710. $n_2^i$

Modelle sind Parameter im Bayes'schen Denken und als solche zufällig oder, wenn Sie es vorziehen, unsicher. Diese Unsicherheit endet nicht während des Validierungsprozesses. Es wird ständig aktualisiert.

Aufgrund der Unterschiede zwischen Bayes'schen und Frequentistischen Methoden müssen auch andere Arten von Fällen berücksichtigt werden. Der erste stammt aus der Parameterinferenz, der zweite aus formalen Vorhersagen. Bei Bayes'schen Methoden sind sie nicht dasselbe. Bayesianische Methoden trennen Inferenz und Entscheidungsfindung formal voneinander. Sie trennen auch die Parameterschätzung und -vorhersage.

Stellen wir uns ohne Verlust der Allgemeinheit vor, dass ein Modell erfolgreich wäre, wenn und andernfalls ein Fehler wäre. Wir werden die anderen Parameter ignorieren, da es eine Menge zusätzlicher Arbeit wäre, eine einfache Idee zu finden. Für den Modellierer, der Bayes'sche Methoden verwendet, ist dies eine ganz andere Art von Frage als für den, der Frequentist-Methoden verwendet. $\hat{\sigma^2}<k$

Für den Frequentisten wird ein Hypothesentest basierend auf dem Trainingssatz gebildet. Der Modellierer, der Frequentist-Methoden verwendet, würde testen, ob die geschätzte Varianz größer oder gleich und versuchen, die Null über der Stichprobe mit der Größe abzulehnen, indem er die Parameter auf die in entdeckten . $k$ $n_2$ $n_1$

Für den Modellierer, der Bayes'sche Methoden verwendet, würden sie während der Stichprobe Parameterschätzungen bilden, und die hintere Dichte von würde für die Stichprobe zur Priorität . Unter der Annahme, dass die Austauschbarkeitseigenschaft gilt, ist sichergestellt, dass die hintere Schätzung von in jeder gleich dem Wort einer Wahrscheinlichkeitsschätzung ist, die aus der gemeinsamen Stichprobe gebildet wird. Das Aufteilen in zwei Stichproben entspricht mathematisch der Tatsache, dass sie überhaupt nicht aufgeteilt wurden. $n_1$ $n_1$ $n_2$ $n_2$

Für Vorhersagen gilt ein ähnliches Problem. Bayes'sche Methoden haben eine prädiktive Verteilung, die ebenfalls mit jeder Beobachtung aktualisiert wird, während die häufig verwendete am Ende von Probe eingefroren wird . Die Vorhersagedichte kann als . Wenn die Vorhersage und die Stichprobe ist, wo sind dann die Parameter, die wir als $n_1$ $\Pr(\tilde{x}=k|\mathbf{X})$ $\tilde{x}$ $\mathbf{X}$ $\theta?$ Obwohl es häufig vorkommende Vorhersagesysteme gibt, behandeln die meisten Menschen die Punktschätzungen nur als die wahren Parameter und berechnen Residuen. Bayesianische Methoden würden jede Vorhersage anhand der vorhergesagten Dichte und nicht nur anhand eines einzelnen Punktes bewerten. Diese Vorhersagen hängen nicht von den Parametern ab, die sich von den in Frequentist-Lösungen verwendeten Punktmethoden unterscheiden.

Nebenbei bemerkt, es gibt formale frequenzistische Vorhersagedichten unter Verwendung der Standardfehler, und es könnte eine Bewertung für diese vorgenommen werden, dies ist jedoch in der Praxis selten. Wenn keine spezifischen Vorkenntnisse vorliegen, sollten die beiden Vorhersagesätze für denselben Satz von Datenpunkten identisch sein. Sie werden sich am Ende unterscheiden, weil und die Bayes'sche Lösung mehr Informationen beschlagnahmt. $n_1+n_2>n_1$

Wenn es keine wesentlichen vorherigen Informationen gibt und wenn die prädiktiven Frequentist-Dichten anstelle von Punktschätzungen verwendet werden, sind die Ergebnisse der Bayes'schen und der Frequentist-Methode für eine feste Stichprobe identisch, wenn ein einzelnes Modell ausgewählt wird. Wenn vorherige Informationen vorliegen, generiert die Bayes'sche Methode tendenziell genauere Vorhersagen. Dieser Unterschied kann in der Praxis sehr groß sein. Wenn es eine Modellmittelung gibt, ist es sehr wahrscheinlich, dass die Bayes'sche Methode robuster ist. Wenn Sie die Modellauswahl verwenden und die Bayes'schen Vorhersagen einfrieren, gibt es keinen Unterschied zur Verwendung eines Frequentist-Modells mit Frequentist-Vorhersagen.

Ich habe einen Test- und Validierungssatz verwendet, da meine Daten nicht austauschbar waren. Infolgedessen musste ich zwei Probleme lösen. Das erste ähnelt dem Einbrennen in MCMC-Methoden. Ich brauchte einen guten Satz von Parameterschätzungen, um meine Testsequenz zu starten, und deshalb habe ich fünfzig Jahre vorheriger Daten verwendet, um eine gute vorherige Dichte zu erhalten, um meinen Validierungstest zu starten. Das zweite Problem war, dass ich eine Art standardisierten Zeitraum zum Testen benötigte, damit der Test nicht in Frage gestellt wurde. Ich habe die beiden vorherigen Geschäftszyklen von NBER verwendet.

— Dave Harris
quelle

Angenommen, Sie haben einen MAP für ein lineares Regressionsmodell mit "nicht informativen" Prioritäten geschätzt. Dies wäre gleichbedeutend mit dem Erhalten der Maximum-Likelihood-Schätzung für das Modell, sodass ML unter der Annahme der Austauschbarkeit auch keinen Testsatz benötigt.

— Tim

"Überanpassung ist das Phänomen, dass Rauschen als Signal behandelt und in die Parameterschätzung einbezogen wird." Ich glaube, diese Definition ist spezifisch für additive Rauschmodelle. Ansonsten ist Überanpassung gegen Unteranpassung nicht so gut definiert.

— Cagdas Ozgenc

@CagdasOzgenc danke. Haben Sie einen Bearbeitungsvorschlag?

— Dave Harris

@ Tim Ich habe den MAP-Schätzer nie erwähnt. Wenn Sie das Problem auf den MAP-Schätzer reduzieren, geben Sie die Robustheit auf. Der MAP-Schätzer ist der Punkt, der eine Kostenfunktion über eine Dichte minimiert. Dies kann für Projektionen problematisch sein, wenn der Dichte eine ausreichende Statistik fehlt. Der MAP-Schätzer würde an sich Informationen verlieren. Wenn Sie den MAP-Schätzer verwendet haben, der nicht in der ursprünglichen Frage enthalten ist und eindeutig nicht Teil von Ma's Präsentation ist, erstellen Sie eine andere Reihe von Problemen für sich.

— Dave Harris

@Tim Der MAP-Schätzer stammt aus der Bayes'schen Entscheidungstheorie und ist eine Überlagerung der Bayes'schen Schätzung und Inferenz. Die Karte ist bequem. Bei der Auswahl der Convenience muss ein Preis bezahlt werden. Sofern die Alles-oder-Nichts-Kostenfunktion nicht Ihre wahre Kostenfunktion ist, geben Sie sowohl Informationen als auch Genauigkeit ab. Sie haben auch andere methodische Probleme als in der Präsentation von Ma vorgeschlagen.

— Dave Harris