Kostenfunktion in der linearen OLS-Regression

31

Ich bin ein bisschen verwirrt mit einem Vortrag über lineare Regression von Andrew Ng über Coursera über maschinelles Lernen. Dort gab er eine Kostenfunktion an, die die Quadratsumme wie folgt minimiert:

\frac{1}{2 m} \sum_{i = 1}^{m} {(h_{θ} (X^{(i)}) - Y^{(i)})}^{2}

$\frac{1}{2m} \sum _{i=1}^m \left(h_\theta(X^{(i)})-Y^{(i)}\right)^2$

Ich verstehe, woher das kommt. Ich denke, er hat es so gemacht, dass, wenn er eine Ableitung des quadratischen Terms ausführte, die 2 im quadratischen Term mit der Hälfte storniert würde. Aber ich verstehe nicht, woher die kommen. $\frac{1}{2}$ $\frac{1}{m}$

Warum müssen wir ? In der linearen Standardregression haben wir es nicht, wir minimieren einfach die Residuen. Warum brauchen wir es hier? $\frac{1}{m}$

regression machine-learning loss-functions

— Kleinschach
quelle

1 / 2m hilft, den durchschnittlichen Fehler pro Datenpunkt zu finden, und m repräsentiert die Gesamtbeobachtungen oder die Anzahl der Beobachtungen.

— Krishnan Achary

33

Wie Sie zu bemerken scheinen, benötigen wir den Faktor sicherlich nicht , um eine lineare Regression zu erhalten. Die Minimierer werden natürlich mit oder ohne dieselben sein. Ein typischer Grund für die Normalisierung mit ist, dass wir die Kostenfunktion als eine Annäherung an den "Generalisierungsfehler" betrachten können, der der erwartete quadratische Verlust für ein zufällig ausgewähltes neues Beispiel ist (nicht im Trainingssatz enthalten): $1/m$ $m$

Angenommen, werden aus einer Verteilung abgetastet. Dann erwarten wir für großes , dass $(X,Y),(X^{(1)},Y^{(1)}),\ldots,(X^{(m)},Y^{(m)})$ $m$

\frac{1}{m} \sum_{i = 1}^{m} {(h_{θ} (X^{(i)}) - Y^{(i)})}^{2} \approx E {(h_{θ} (X) - Y)}^{2} .

$\frac{1}{m} \sum _{i=1}^m \left(h_\theta(X^{(i)})-Y^{(i)}\right)^2 \approx \mathbb{E}\left(h_\theta(X)-Y\right)^2.$

Genauer gesagt gilt nach dem starken Gesetz der großen Zahlen mitWahrscheinlichkeit1.

lim_{m \to \infty} \frac{1}{m} \sum_{i = 1}^{m} {(h_{θ} (X^{(i)}) - Y^{(i)})}^{2} = E {(h_{θ} (X) - Y)}^{2}

$\lim_{m\to\infty} \frac{1}{m} \sum _{i=1}^m \left(h_\theta(X^{(i)})-Y^{(i)}\right)^2 = \mathbb{E}\left(h_\theta(X)-Y\right)^2$

Anmerkung: Jede der obigen Aussagen gilt für ein bestimmtes , das ausgewählt wurde, ohne den Trainingssatz zu betrachten. Für maschinelles Lernen, wollen wir diese Aussagen zu halten , für einige auf der Grundlage seiner guten Leistung auf dem Trainingssatz gewählt. Diese Behauptungen können in diesem Fall immer noch gelten, obwohl wir einige Annahmen über die Menge der Funktionen treffen müssen $\theta$ $\hat{\theta}$ , und wir brauchen etwas Stärkeres als das Gesetz der großen Zahlen. $\{h_\theta \,|\, \theta \in \Theta\}$

— DavidR
quelle

1

@StudentT Dies ist wahrscheinlich der beste Grund für die Verwendung des Durchschnittsfehlers über der Gesamtsumme. Meine Erklärung ist eigentlich nur eine oberflächliche Folge des tieferen Grundes von DavidR.

— Matthew Drury

28

Sie müssen nicht haben zu. Die Verlustfunktion hat das gleiche Minimum, unabhängig davon, ob Sie die einschließen oder unterdrücken. Wenn Sie es jedoch einschließen, erhalten Sie die nette Interpretation der Minimierung (der Hälfte) desdurchschnittlichenFehlers pro Datenpunkt. Anders ausgedrückt, der Fehler werden minimiertRateanstelle des Gesamtfehlers. $\frac{1}{m}$

Vergleichen Sie die Leistung für zwei Datensätze unterschiedlicher Größe. Die rohe Summe der quadratischen Fehler ist nicht direkt vergleichbar, da größere Datensätze aufgrund ihrer Größe tendenziell mehr Gesamtfehler aufweisen. Auf der anderen Seite, der durchschnittliche Fehler pro Datenpunkt ist .

Können Sie etwas näher darauf eingehen?

Sicher. Ihr Datensatz ist eine Sammlung von Datenpunkten . Wenn Sie ein Modell , ist der Fehler der kleinsten Quadrate von für einen einzelnen Datenpunkt $\{ x_i, y_i \}$ $h$ $h$

(h (x_{i}) - y_{i})^{2}

$(h(x_i) - y_i)^2$

Dies ist natürlich für jeden Datenpunkt anders. Wenn wir nun einfach die Fehler zusammenfassen (und aus dem von Ihnen beschriebenen Grund mit der Hälfte multiplizieren), erhalten wir den Gesamtfehler

\frac{1}{2} \sum_{i} (h (x_{i}) - y_{i})^{2}

$\frac{1}{2} \sum_i (h(x_i) - y_i)^2$

Wenn wir aber durch die Anzahl der Summanden dividieren, erhalten wir den durchschnittlichen Fehler pro Datenpunkt

\frac{1}{2 m} \sum_{i} (h (x_{i}) - y_{i})^{2}

$\frac{1}{2m} \sum_i (h(x_i) - y_i)^2$

Der Nutzen des durchschnittlichen Fehlers ist , dass , wenn wir zwei Datensätze und von Größen differeing , dann können wir die durchschnittlichen Fehler vergleichen , nicht aber die Gesamtfehler. Wenn der zweite Datensatz beispielsweise zehnmal so groß ist wie der erste, ist der Gesamtfehler für dasselbe Modell etwa zehnmal so groß. Auf der anderen Seite teilt der durchschnittliche Fehler die Auswirkung der Größe des Datensatzes auf, sodass wir erwarten würden, dass Modelle mit ähnlicher Leistung ähnliche durchschnittliche Fehler in verschiedenen Datensätzen aufweisen. $\{ x_i, y_i \}$ $\{ x'_i, y'_i \}$

— Matthew Drury
quelle

1

Ich kann dir irgendwie folgen, kannst du etwas näher darauf eingehen? Tut mir leid, ich bin neu im maschinellen Lernen!

— SmallChess

@StudentT Ich habe versucht, meine Antwort zu präzisieren.

— Matthew Drury

1

Gleiches gilt auch, wenn Sie beim stochastischen Gradientenabstieg, der bei der Arbeit mit großen Datensätzen am häufigsten vorkommt, zufällig mit der Mini-Batch-Größe experimentieren: Sie können den Fehler einfacher vergleichen.

— Jasonszhao