- λ→∞ββ=0
(Update: Bitte lesen Sie die Antwort von Glen_b. Dies ist nicht der richtige historische Grund!)
β^=(XTX+λI)−1XTY.
λI
n<p
β
ββ∼N(0,σ2λIp)(Y|X,β)∼N(Xβ,σ2In)
π(β|y)∝π(β)f(y|β)
∝1(σ2/λ)p/2exp(−λ2σ2βTβ)×1(σ2)n/2exp(−12σ2||y−Xβ||2)
∝exp(−λ2σ2βTβ−12σ2||y−Xβ||2).
maxβ∈Rp exp(−λ2σ2βTβ−12σ2||y−Xβ||2)
maxβ∈Rp −λ2σ2βTβ−12σ2||y−Xβ||2
weil streng monoton ist und dies wiederum äquivalent zu
logminβ∈Rp||y−Xβ||2+λβTβ
das sollte ziemlich vertraut aussehen.
Wir sehen also, dass, wenn wir einen normalen Prior mit dem Mittelwert 0 und der Varianz auf unseren Vektor setzen, der Wert von der den posterioren maximiert, der Kammschätzer ist. Beachten Sie, dass hier eher als frequentistischer Parameter behandelt wird, da es keine Prioritäten gibt, diese jedoch nicht bekannt sind.σ2λββσ2
Bearbeiten: Sie haben nach dem Fall gefragt, in dem . Wir wissen, dass eine Hyperebene in durch genau Punkte definiert ist. Wenn wir eine lineare Regression ausführen und , interpolieren wir genau unsere Daten und erhalten . Dies ist eine Lösung, aber es ist eine schreckliche: Unsere Leistung bei zukünftigen Daten wird höchstwahrscheinlich miserabel sein. Nehmen wir nun an, : Es gibt keine eindeutige Hyperebene mehr, die durch diese Punkte definiert ist. Wir können eine Vielzahl von Hyperebenen mit jeweils 0 verbleibenden Quadratsummen anpassen.n<pRppn=p||y−Xβ^||2=0n<p
Ein sehr einfaches Beispiel: Angenommen, . Dann bekommen wir nur eine Linie zwischen diesen beiden Punkten. Angenommen, aber . Stellen Sie sich ein Flugzeug mit diesen beiden Punkten vor. Wir können diese Ebene drehen, ohne die Tatsache zu ändern, dass sich diese beiden Punkte in ihr befinden. Es gibt also unzählige Modelle, die alle einen perfekten Wert für unsere Zielfunktion aufweisen. Daher ist auch über das Problem der Überanpassung hinaus nicht klar, welches ausgewählt werden soll.n=p=2n=2p=3
Als letzter Kommentar (per @ gungs Vorschlag) wird das LASSO (unter Verwendung einer Strafe) häufig für hochdimensionale Probleme verwendet, da es automatisch eine Variablenauswahl durchführt (setzt einige ). Es stellt sich erfreulicherweise heraus, dass der LASSO dem Finden des posterioren Modus entspricht, wenn ein doppeltes Exponential (auch Laplace genannt) vor dem Vektor verwendet wird. Das LASSO hat auch einige Einschränkungen, wie beispielsweise bei sättigenden Prädiktoren und nicht notwendigerweise Gruppen korrelierter Prädiktoren in idealer Weise der Handhabung, so dass das elastische Netz (konvexe Kombination von und Strafen) gebracht werden kann , zu tragen.L1βj=0βnL1L2