Welches Modell würde bei zwei linearen Regressionsmodellen eine bessere Leistung erbringen?


14

Ich habe an meinem College einen Maschinellen Lernkurs absolviert. In einem der Quiz wurde diese Frage gestellt.

Modell 1: Modell 2:

y=θx+ϵ
y=θx+θ2x+ϵ

Welches der oben genannten Modelle passt besser zu Daten? (Angenommen, Daten können mit linearer Regression modelliert werden.)

Die richtige Antwort (laut Professor) ist, dass beide Modelle gleich gut abschneiden würden. Ich glaube jedoch, dass das erste Modell besser passen würde.

Dies ist der Grund für meine Antwort. Das zweite Modell, das umgeschrieben werden kann als , wäre nicht dasselbe wie das erste Modell. ist in der Tat eine Parabel und hat daher einen Mindestwert ( in diesem Fall ). Aus diesem Grund ist der Bereich von im ersten Modell größer als der Bereich von im zweiten Modell. Wenn die Daten so waren, dass die beste Anpassung eine Steigung von weniger als , würde das zweite Modell im Vergleich zum ersten Modell sehr schlecht . Falls jedoch die Steigung der besten Anpassung größer als , würden beide Modelle gleich gut .α - 0,25 - 0,25αx+ϵ α - 0,25 θα=θ+θ2α0.25θα0.250.25

Ist also der erste besser oder sind beide genau gleich?


3
Ich denke du hast recht. Das Erfordernis, dass ein Parameter agr; als (für einige thgr;) ausgedrückt werden kann, erzwingt tatsächlich eine Einschränkung für wasαθ+θ2θα sind möglich. Dies bedeutet, dass das zweite ModellwenigerBeziehungenausdrücken kannals das erste, da es sich im Wesentlichen jetzt um ein eingeschränktes Optimierungsproblem handelt. Ihre Argumentation scheint mir solide.
Matthew Drury

@MatthewDrury Ich habe gerade herausgefunden, wo ich falsch gelaufen bin, werfen Sie einen Blick auf die Antwort unten (und den Kommentar)
kush

3
Ich sehe Ihren Kommentar, aber das ist eine ziemlich ernsthafte Gymnastik, um anzunehmen, dass komplexe Werte annehmen würde. Ich würde auf jeden Fall einige Sprechstunden besuchen, um mit Ihrem Professor darüber zu sprechen. So oder so erhalten Sie eine gute Diskussion. θ
Matthew Drury

1
Mir ist nicht klar, woher die -0,25 kommt. Könntest Du das erläutern?
Mad Jack

1
Es würde mich interessieren, wie Ihr Professor jedes Modell an den Zweipunktdatensatz . Mit Modell 1 und θ = - 1 ist die Anpassung perfekt, aber wie würde er θ in Modell 2 schätzen , um eine perfekte Anpassung zu erhalten? {(1,1),(2,2)}θ=1θ
Whuber

Antworten:


9

Modell 2 kann geschrieben werden als: Dies scheint ähnlich zu Modell 1 zu sein, nur mit unterschiedlicher Notation für die Hyperparameter ( θ , β ). Doch für Modell 1 können wir schreiben θ = ( X

y=(θ+θ2)x+ϵ=βx+ϵ.
θ,β
θ^=(XX)1Xy.

Da aber in Modell 2 wir diese haben dann , wie Sie erwähnt in der Tat der Bereich von β gehören soll [ - 0,25 , + ] für θ & egr ; R . Was zu Unterschieden bei diesen beiden Modellen führen wird.

β=θ+θ2,
β^[0.25,+]θR

So ist in Modell 2 Sie Koeffizientenschätzung im Gegensatz zu Modell sind beschränke 1. Um dies deutlicher, sei darauf hingewiesen, dass in Modell durch die Minimierung der quadratischen Verlustfunktion erhalten wird θ = arg min θ & egr ; R ( y - X θ )θ^ Jedoch in dem Modell 2 der Schätzwert erhaltendurch β =arg min β - 0,25 (y-Xβ)

θ^=argminθR  (yXθ)(yXθ)=(XX)1Xy.
was zu einem anderen Ergebnis führen könnte.
β^=argminβ0.25  (yXβ)(yXβ)

1
θθ+θ2θ

@ Kush Bitte überprüfen Sie meine bearbeitete Antwort, die auch Ihr Anliegen anspricht
Wis

1

Ich bin mir nicht sicher, ob ich deine Argumentation verstehe. Wenn du nimmst:

y=αx+ϵ
y=θx+ϵ

αθαθR2θα=θ+θ2


5
θ(,)α(0.25,)x
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.