Welches Modell würde bei zwei linearen Regressionsmodellen eine bessere Leistung erbringen?

Ich habe an meinem College einen Maschinellen Lernkurs absolviert. In einem der Quiz wurde diese Frage gestellt.

Modell 1: Modell 2:
$y = θ x + ϵ$ $y = \theta x + \epsilon$ $y = θ x + θ^{2} x + ϵ$ $y = \theta x + \theta^2 x + \epsilon$
Welches der oben genannten Modelle passt besser zu Daten? (Angenommen, Daten können mit linearer Regression modelliert werden.)

Die richtige Antwort (laut Professor) ist, dass beide Modelle gleich gut abschneiden würden. Ich glaube jedoch, dass das erste Modell besser passen würde.

Dies ist der Grund für meine Antwort. Das zweite Modell, das umgeschrieben werden kann als , wäre nicht dasselbe wie das erste Modell. ist in der Tat eine Parabel und hat daher einen Mindestwert ( in diesem Fall ). Aus diesem Grund ist der Bereich von im ersten Modell größer als der Bereich von im zweiten Modell. Wenn die Daten so waren, dass die beste Anpassung eine Steigung von weniger als , würde das zweite Modell im Vergleich zum ersten Modell sehr schlecht . Falls jedoch die Steigung der besten Anpassung größer als , würden beide Modelle gleich gut . $\alpha x + \epsilon$ $\alpha = \theta + \theta^2$ $\alpha$ $-0.25$ $\theta$ $\alpha$ $-0.25$ $-0.25$

Ist also der erste besser oder sind beide genau gleich?

— kusch
quelle

Ich denke du hast recht. Das Erfordernis, dass ein Parameter agr; als (für einige thgr;) ausgedrückt werden kann, erzwingt tatsächlich eine Einschränkung für was

α

$\alpha$

θ + θ^{2}

$\theta + \theta^2$

θ

$\theta$

α

$\alpha$ sind möglich. Dies bedeutet, dass das zweite ModellwenigerBeziehungenausdrücken kannals das erste, da es sich im Wesentlichen jetzt um ein eingeschränktes Optimierungsproblem handelt. Ihre Argumentation scheint mir solide.

— Matthew Drury

@MatthewDrury Ich habe gerade herausgefunden, wo ich falsch gelaufen bin, werfen Sie einen Blick auf die Antwort unten (und den Kommentar)

— kush

Ich sehe Ihren Kommentar, aber das ist eine ziemlich ernsthafte Gymnastik, um anzunehmen, dass

komplexe Werte annehmen würde. Ich würde auf jeden Fall einige Sprechstunden besuchen, um mit Ihrem Professor darüber zu sprechen. So oder so erhalten Sie eine gute Diskussion.

θ

$\theta$

— Matthew Drury

Mir ist nicht klar, woher die -0,25 kommt. Könntest Du das erläutern?

— Mad Jack

Es würde mich interessieren, wie Ihr Professor jedes Modell an den Zweipunktdatensatz

. Mit Modell 1 und

die Anpassung perfekt, aber wie würde er

in Modell 2 schätzen , um eine perfekte Anpassung zu erhalten?

{(1, - 1), (2, - 2)}

$\{(1,-1),(2,-2)\}$

θ = - 1

$\theta=-1$

θ

$\theta$

— Whuber

Antworten:

Modell 2 kann geschrieben werden als: Dies scheint ähnlich zu Modell 1 zu sein, nur mit unterschiedlicher Notation für die Hyperparameter ( ). Doch für Modell 1 können wir schreiben

y = (θ + θ^{2}) x + ϵ = β x + ϵ .

$y=(\theta + \theta^{2}) x+\epsilon=\beta x+\epsilon.$

θ, β

$\theta, \beta$

\hat{θ} = (X^{^{'}} X)^{- 1} X^{^{'}} y .

$\hat{\theta}=(X^{'}X)^{-1}X^{'}y.$

Da aber in Modell 2 wir diese haben dann , wie Sie erwähnt in der Tat der Bereich von gehören soll für . Was zu Unterschieden bei diesen beiden Modellen führen wird.

β = θ + θ^{2},

$\beta=\theta + \theta^{2},$

\hat{β}

$\hat{\beta}$

[- 0.25, + \infty]

$[-0.25,+\infty]$

θ \in R

$\theta \in R$

So ist in Modell 2 Sie Koeffizientenschätzung im Gegensatz zu Modell sind beschränke 1. Um dies deutlicher, sei darauf hingewiesen, dass in Modell durch die Minimierung der quadratischen Verlustfunktion erhalten wird $\hat{\theta}$ Jedoch in dem Modell 2 der Schätzwert erhaltendurch

\hat{θ} = \arg min_{θ \in R} (y - X θ)^{^{'}} (y - X θ) = (X^{^{'}} X)^{- 1} X^{^{'}} y .

$\hat{\theta}=\arg\min_{\theta\in{R}} \ \ (y-X\theta)^{'}(y-X\theta)=(X^{'}X)^{-1}X^{'}y.$

was zu einem anderen Ergebnis führen könnte.

\hat{β} = \arg min_{β \geq - 0.25} (y - X β)^{^{'}} (y - X β)

$\hat{\beta}=\arg\min_{\beta\geq-0.25} \ \ (y-X\beta)^{'}(y-X\beta)$

— Wis
quelle

θ

$\theta$

θ + θ^{2}

$\theta + \theta^2$

θ

$\theta$

@ Kush Bitte überprüfen Sie meine bearbeitete Antwort, die auch Ihr Anliegen anspricht

— Wis

Ich bin mir nicht sicher, ob ich deine Argumentation verstehe. Wenn du nimmst:

y = α x + ϵ

$y = \alpha x+\epsilon$

y = θ x + ϵ

$y = \theta x + \epsilon$

$\alpha$ $\theta$ $\alpha$ $\theta$ $R^2$ $\theta$ $\alpha = \theta + \theta^2$

— Akeenlogician
quelle

θ

$\theta$

(- \infty, \infty)

$(- \infty, \infty)$

α

$\alpha$

(- 0.25, \infty)

$(- 0.25, \infty)$

x

$x$