Also beantwortete ich die Frage zur Überanpassung, auf die Sie verweisen, und schaute mir das Video an und las den Blog-Beitrag. Radford Neal sagt nicht, dass Bayes'sche Modelle nicht überpassen. Denken wir daran, dass Überanpassung das Phänomen ist, dass Rauschen als Signal behandelt und in die Parameterschätzung einbezogen wird. Dies ist nicht die einzige Ursache für Modellauswahlfehler. Neals Diskussion ist jedoch breiter, indem er sich auf die Idee einer kleinen Stichprobengröße wagt, die er in die Diskussion über Überanpassung wagt.
Lassen Sie mich meine vorherige Veröffentlichung teilweise überarbeiten, dass Bayes'sche Modelle an alle Bayes'schen Modelle angepasst werden können, dies jedoch auf eine Weise, die die Vorhersage verbessert. Zurück zur Definition der Verwechslung von Signal und Rauschen: Die Unsicherheit in den Bayes'schen Methoden, die posteriore Verteilung, ist die Quantifizierung dieser Unsicherheit darüber, was Signal und was Rauschen ist. Dabei stauen Bayes'sche Methoden Rauschen in Signalschätzungen ein, da der gesamte Posterior für Inferenz und Vorhersage verwendet wird. Überanpassung und andere Ursachen für Modellklassifizierungsfehler sind eine andere Art von Problem bei Bayes'schen Methoden.
Lassen Sie uns zur Vereinfachung die Struktur von Ma's Vortrag übernehmen und uns auf die lineare Regression konzentrieren und die Diskussion über tiefes Lernen vermeiden, da die alternativen Methoden, die er erwähnt, nur Zusammensetzungen von Funktionen sind und eine direkte Verbindung zwischen der Logik der linearen besteht Regression und tiefes Lernen.
Betrachten Sie das folgende mögliche Modell Erstellen wir eine breite Stichprobe der Größe die aus zwei Teilstichproben besteht, , wobei der Trainingssatz und der Validierungssatz ist. Wir werden sehen, warum Bayes'sche Methoden mit einigen Einschränkungen kein separates Trainings- und Validierungsset benötigen.
y=β0+β1x1+β2x2+β3x3.
Nn1,n2n1n2
Für diese Diskussion müssen wir acht weitere Parameter erstellen, einen für jedes Modell. Sie sind . Sie folgen einer multinomialen Verteilung und haben ebenso wie die Regressionskoeffizienten die richtigen Prioritäten. Die acht Modelle sind und m1…8
y=β0+β1x1+β2x2+β3x3,
y=β0,
y=β0+β1x1,
y=β0+β2x2,
y=β0+β3x3,
y=β0+β1x1+β2x2,
y=β0+β1x1+β3x3,
y=β0+β2x2+β3x3,
y=β0+β1x1,
y=β0+β2x2,
y=β0+β3x3.
Jetzt müssen wir uns mit den Unterschieden zwischen Bayes'schen und Frequentistischen Methoden befassen. Im Trainingssatz wählt der Modellierer mit Frequentist-Methoden nur ein Modell aus. Der Modellierer, der Bayes'sche Methoden verwendet, ist nicht so eingeschränkt. Obwohl der Bayes'sche Modellierer ein Modellauswahlkriterium verwenden könnte, um nur ein Modell zu finden, können sie auch die Modellmittelung verwenden. Dem Bayes'schen Modellierer steht es auch frei, ausgewählte Modelle im Midstream des Validierungssegments zu ändern. Moreso, der Modellierer, der Bayes'sche Methoden verwendet, kann zwischen Auswahl und Mittelwertbildung mischen und anpassen.n1,
Um ein reales Beispiel zu geben, habe ich 78 Insolvenzmodelle getestet. Von den 78 Modellen betrug die kombinierte posteriore Wahrscheinlichkeit von 76 etwa ein Zehntausendstel von einem Prozent. Die beiden anderen Modelle waren rund 54 Prozent bzw. 46 Prozent. Zum Glück teilten sie auch keine Variablen. Dadurch konnte ich beide Modelle auswählen und die anderen 76 ignorieren. Als ich alle Datenpunkte für beide hatte, habe ich ihre Vorhersagen basierend auf den hinteren Wahrscheinlichkeiten der beiden Modelle gemittelt und nur ein Modell verwendet, wenn ich fehlende Datenpunkte hatte, die das ausschlossen andere. Ich hatte zwar ein Trainingsset und ein Validierungsset, aber nicht aus dem gleichen Grund, aus dem ein Frequentist sie haben würde. Darüber hinaus habe ich am Ende eines jeden Tages über zwei Geschäftszyklen hinweg meine Posterioren mit den Daten jedes Tages aktualisiert. Das bedeutete, dass mein Modell am Ende des Validierungssatzes nicht das Modell am Ende des Trainingssatzes war. Bayesianische Modelle hören nicht auf zu lernen, während es häufig vorkommende Modelle tun.
Um tiefer zu gehen, lassen Sie uns mit unseren Modellen konkret werden. Nehmen wir an, dass während des Trainingsbeispiels das am besten passende Frequentist-Modell und das Bayes'sche Modell unter Verwendung der Modellauswahl übereinstimmten oder dass das Modellgewicht bei der Modellmittelung so groß war, dass es vom Frequentist-Modell kaum zu unterscheiden war. Wir werden uns vorstellen, dass dieses Modell Stellen wir uns auch vor, dass das wahre Modell in der Natur
y=β0+β1x1+β2x2+β3x3.
y=β0+β1x1+β3x3.
Betrachten wir nun den Unterschied im Validierungssatz. Das Frequentist-Modell ist an die Daten angepasst. Nehmen wir an, dass zu einem bestimmten Zeitpunkt die Modellauswahl oder das Validierungsverfahren die Auswahl in das wahre Modell der Natur geändert hat. Wenn die Modellmittelung verwendet wurde, hatte das wahre Modell in der Natur Gewicht in der Vorhersage, lange bevor die Auswahl der Modelle eindeutig war. ET Jaynes diskutiert in seinem Band zur Wahrscheinlichkeitstheorie einige Zeit mit diesem Thema. Ich habe das Buch bei der Arbeit, daher kann ich Ihnen kein gutes Zitat geben, aber Sie sollten es lesen. Die ISBN lautet 978-0521592710.ni2
Modelle sind Parameter im Bayes'schen Denken und als solche zufällig oder, wenn Sie es vorziehen, unsicher. Diese Unsicherheit endet nicht während des Validierungsprozesses. Es wird ständig aktualisiert.
Aufgrund der Unterschiede zwischen Bayes'schen und Frequentistischen Methoden müssen auch andere Arten von Fällen berücksichtigt werden. Der erste stammt aus der Parameterinferenz, der zweite aus formalen Vorhersagen. Bei Bayes'schen Methoden sind sie nicht dasselbe. Bayesianische Methoden trennen Inferenz und Entscheidungsfindung formal voneinander. Sie trennen auch die Parameterschätzung und -vorhersage.
Stellen wir uns ohne Verlust der Allgemeinheit vor, dass ein Modell erfolgreich wäre, wenn und andernfalls ein Fehler wäre. Wir werden die anderen Parameter ignorieren, da es eine Menge zusätzlicher Arbeit wäre, eine einfache Idee zu finden. Für den Modellierer, der Bayes'sche Methoden verwendet, ist dies eine ganz andere Art von Frage als für den, der Frequentist-Methoden verwendet.σ2^<k
Für den Frequentisten wird ein Hypothesentest basierend auf dem Trainingssatz gebildet. Der Modellierer, der Frequentist-Methoden verwendet, würde testen, ob die geschätzte Varianz größer oder gleich und versuchen, die Null über der Stichprobe mit der Größe abzulehnen, indem er die Parameter auf die in entdeckten .kn2n1
Für den Modellierer, der Bayes'sche Methoden verwendet, würden sie während der Stichprobe Parameterschätzungen bilden, und die hintere Dichte von würde für die Stichprobe zur Priorität . Unter der Annahme, dass die Austauschbarkeitseigenschaft gilt, ist sichergestellt, dass die hintere Schätzung von in jeder gleich dem Wort einer Wahrscheinlichkeitsschätzung ist, die aus der gemeinsamen Stichprobe gebildet wird. Das Aufteilen in zwei Stichproben entspricht mathematisch der Tatsache, dass sie überhaupt nicht aufgeteilt wurden.n1n1n2n2
Für Vorhersagen gilt ein ähnliches Problem. Bayes'sche Methoden haben eine prädiktive Verteilung, die ebenfalls mit jeder Beobachtung aktualisiert wird, während die häufig verwendete am Ende von Probe eingefroren wird . Die Vorhersagedichte kann als . Wenn die Vorhersage und die Stichprobe ist, wo sind dann die Parameter, die wir alsn1Pr(x~=k|X)x~Xθ? Obwohl es häufig vorkommende Vorhersagesysteme gibt, behandeln die meisten Menschen die Punktschätzungen nur als die wahren Parameter und berechnen Residuen. Bayesianische Methoden würden jede Vorhersage anhand der vorhergesagten Dichte und nicht nur anhand eines einzelnen Punktes bewerten. Diese Vorhersagen hängen nicht von den Parametern ab, die sich von den in Frequentist-Lösungen verwendeten Punktmethoden unterscheiden.
Nebenbei bemerkt, es gibt formale frequenzistische Vorhersagedichten unter Verwendung der Standardfehler, und es könnte eine Bewertung für diese vorgenommen werden, dies ist jedoch in der Praxis selten. Wenn keine spezifischen Vorkenntnisse vorliegen, sollten die beiden Vorhersagesätze für denselben Satz von Datenpunkten identisch sein. Sie werden sich am Ende unterscheiden, weil und die Bayes'sche Lösung mehr Informationen beschlagnahmt.n1+n2>n1
Wenn es keine wesentlichen vorherigen Informationen gibt und wenn die prädiktiven Frequentist-Dichten anstelle von Punktschätzungen verwendet werden, sind die Ergebnisse der Bayes'schen und der Frequentist-Methode für eine feste Stichprobe identisch, wenn ein einzelnes Modell ausgewählt wird. Wenn vorherige Informationen vorliegen, generiert die Bayes'sche Methode tendenziell genauere Vorhersagen. Dieser Unterschied kann in der Praxis sehr groß sein. Wenn es eine Modellmittelung gibt, ist es sehr wahrscheinlich, dass die Bayes'sche Methode robuster ist. Wenn Sie die Modellauswahl verwenden und die Bayes'schen Vorhersagen einfrieren, gibt es keinen Unterschied zur Verwendung eines Frequentist-Modells mit Frequentist-Vorhersagen.
Ich habe einen Test- und Validierungssatz verwendet, da meine Daten nicht austauschbar waren. Infolgedessen musste ich zwei Probleme lösen. Das erste ähnelt dem Einbrennen in MCMC-Methoden. Ich brauchte einen guten Satz von Parameterschätzungen, um meine Testsequenz zu starten, und deshalb habe ich fünfzig Jahre vorheriger Daten verwendet, um eine gute vorherige Dichte zu erhalten, um meinen Validierungstest zu starten. Das zweite Problem war, dass ich eine Art standardisierten Zeitraum zum Testen benötigte, damit der Test nicht in Frage gestellt wurde. Ich habe die beiden vorherigen Geschäftszyklen von NBER verwendet.