Bayesian vs MLE, Überanpassungsproblem

In Bishops PRML-Buch sagt er, dass Überanpassung ein Problem bei der Maximum Likelihood Estimation (MLE) ist und Bayesian dies vermeiden kann.

Aber ich denke, Überanpassung ist eher ein Problem bei der Modellauswahl als bei der Methode zur Parameterschätzung. Angenommen, ich habe einen Datensatz , der über $D$ , jetzt könnte ich verschiedene Modelle auswählen, um die Daten anzupassen und herauszufinden, welches das beste ist. Und die betrachteten Modelle sind Polynome mit unterschiedlichen Ordnungen, ist Ordnung 1, ist Ordnung 2,

f (x) = s i n (x), x \in [0, 1]

$f(x)=sin(x),\;x\in[0,1]$

H_{i}

$H_i$

H_{1}

$H_1$

H_{2}

$H_2$

ist Ordnung 9.

H_{3}

$H_3$

Jetzt versuche ich, die Daten mit jedem der 3 Modelle zu kombinieren. Jedes Modell hat seine Parameter, die als für . $D$ $w_i$ $H_i$

Mit ML habe ich eine Punktschätzung der Modellparameter , und ist zu einfach und passt immer zu wenig zu den Daten, während zu komplex ist und zu viel zu den Daten passt , nur passt gut zu den Daten. $w$ $H_1$ $H_3$ $H_2$

Meine Fragen sind:

1) Modell passt die Daten über, aber ich denke nicht, dass es das Problem von ML ist, sondern das Problem des Modells an sich. Da unter Verwendung von ML für führt nicht in Überanpassung. Habe ich recht? $H_3$ $H_1,H_2$

2) Verglichen mit Bayesian hat ML einige Nachteile, da es nur die Punktschätzung der Modellparameter liefert und übermäßig sicher ist. Während Bayesian sich nicht nur auf den wahrscheinlichsten Wert des Parameters stützt, sondern auf alle möglichen Werte der Parameter unter Berücksichtigung der beobachteten Daten , oder? $w$ $D$

3) Warum kann Bayesian eine Überanpassung vermeiden oder verringern? Soweit ich weiß, können wir Bayesian für den Modellvergleich verwenden. Wenn wir also Daten , können wir die Grenzwahrscheinlichkeit (oder Modellbeweise) für jedes betrachtete Modell herausfinden und dann das Modell mit der höchsten Grenzwahrscheinlichkeit auswählen, richtig ? Wenn ja, warum ist das so? $D$

bayesian model-selection overfitting

— Avocado
quelle

Antworten:

Optimierung ist die Wurzel allen Übels in der Statistik. Jedes Mal, wenn Sie eine Auswahl für Ihr Modell treffen, indem Sie ein geeignetes Kriterium optimieren, das anhand einer endlichen Stichprobe von Daten ausgewertet wird, besteht die Gefahr, dass Sie das Kriterium übererfüllen, dh die Statistik über den Punkt hinaus reduzieren, an dem Verbesserungen bei der Generalisierungsleistung erzielt werden und die Reduzierung erfolgt stattdessen gewonnen durch Ausnutzung der Besonderheiten der Datenstichprobe (zB Rauschen). Der Grund, warum die Bayes'sche Methode besser funktioniert, ist, dass Sie nichts optimieren, sondern stattdessen über alle möglichen Optionen hinweg an den Rand gedrängt (integriert) werden. Das Problem liegt dann in der Wahl der vorherigen Überzeugungen in Bezug auf das Modell. Ein Problem ist also weg, aber ein anderes tritt an seine Stelle. $^1$

Dies beinhaltet die Maximierung der Evidenz (marginale Wahrscheinlichkeit) in einer Bayes'schen Umgebung. Ein Beispiel dafür finden Sie in den Ergebnissen für Gaußsche Prozessklassifikatoren in meinem Artikel, in denen die Optimierung der Grenzwahrscheinlichkeit das Modell verschlechtert, wenn Sie zu viele Hyperparameter haben (die Auswahl der Noten nach der Grenzwahrscheinlichkeit tendiert dazu, Modelle mit vielen Hyperparametern zu bevorzugen -Parameter infolge dieser Überanpassung). $^1$

GC Cawley und NLC Talbot, Überanpassung bei der Modellauswahl und anschließende Auswahlverzerrung bei der Leistungsbewertung, Journal of Machine Learning Research, 2010. Research, vol. 11, S. 2079-2107, Juli 2010. ( pdf )

— Dikran Beuteltier
quelle

+1, vielen Dank, ich werde Ihre Zeitung lesen und sehen, ob ich weitere Fragen habe, ;-)

— Avocado

Zu beachten ist hier, dass die Optimierung in der Regel als annähernd integrierend angesehen werden kann - die Laplace-Methode ist ein Beispiel dafür. Die Optimierung schlägt normalerweise fehl, wenn es keine gute Annäherung an die Integration ist - daher ist REML normalerweise besser als ML.

— Wahrscheinlichkeitsrechnung

@probabilityislogic, ich bin nicht sicher, ob ich das verstehe, ML ist ein bisschen wie MAP, es wird keine Integration durchgeführt. Die Verwendung der Laplace-Näherung (so wie ich sie verwendet habe) ist eine Optimierung in dem Sinne, dass Sie eine Näherung an die Funktion optimieren, die Sie integrieren möchten, und diese stattdessen integrieren, aber es wird noch eine Integration durchgeführt.

— Dikran Marsupial

@dikran Beuteltier - Vielleicht ist es besser zu erklären, dass die Integration häufig gut approximiert wird, indem ein Parameter durch ML geschätzt wird und dieser Parameter auf den Wert MLE beschränkt wird. Die Laplace-Approximation liefert einen "Korrekturfaktor" für diese Intuition - genau wie REML.

— Wahrscheinlichkeitsrechnung

@probabilityislogic Danke für die Antwort, ich werde es mir etwas überlegen!

— Dikran Beuteltier

Wenn Sie Regressionsmodelle vom Typ "Least Squares" verwenden, gibt es im Allgemeinen keinen großen Unterschied zwischen Bayes und ML, es sei denn, Sie verwenden ein informatives Vorzeichen für die Regressionsparameter. Als Antwort auf Besonderheiten:

$H_9$ $H_1$

$x$

3) Mit dem Bayes'schen Ansatz kann eine Überanpassung nur bei geeigneten Priors vermieden werden. Dies funktioniert auf ähnliche Weise wie die Strafbegriffe, die Sie in einigen Anpassungsalgorithmen sehen. Zum Beispiel ist L2-Strafe = normal vor, L1-Strafe = Laplace vor.

— Wahrscheinlichkeitslogik
quelle

H_{9}

$H_9$

H_{\infty}

$H_\infty$

H_{9}

$H_9$

$H_1$ $H_2$ $H_3$

$2$ $H_1$

$l^1$

— Youloush
quelle

Eine einfache Hypothese (z. B. h1, h2) mit unzureichenden Trainingsmustern wäre ein Beispiel für eine Unteranpassung (für den Lebenslauf) und nicht für eine Überanpassung aufgrund der Modellverzerrung bei den wenigen angegebenen Trainingsbeispielen.

— Yekta