Sie müssen nicht haben zu. Die Verlustfunktion hat das gleiche Minimum, unabhängig davon, ob Sie die 1 einschließen oder unterdrücken. Wenn Sie es jedoch einschließen, erhalten Sie die nette Interpretation der Minimierung (der Hälfte) desdurchschnittlichenFehlers pro Datenpunkt. Anders ausgedrückt, der Fehler werden minimiertRateanstelle des Gesamtfehlers.1m
Vergleichen Sie die Leistung für zwei Datensätze unterschiedlicher Größe. Die rohe Summe der quadratischen Fehler ist nicht direkt vergleichbar, da größere Datensätze aufgrund ihrer Größe tendenziell mehr Gesamtfehler aufweisen. Auf der anderen Seite, der durchschnittliche Fehler pro Datenpunkt ist .
Können Sie etwas näher darauf eingehen?
Sicher. Ihr Datensatz ist eine Sammlung von Datenpunkten . Wenn Sie ein Modell h haben , ist der Fehler der kleinsten Quadrate von h für einen einzelnen Datenpunkt{xi,yi}hh
(h(xi)−yi)2
Dies ist natürlich für jeden Datenpunkt anders. Wenn wir nun einfach die Fehler zusammenfassen (und aus dem von Ihnen beschriebenen Grund mit der Hälfte multiplizieren), erhalten wir den Gesamtfehler
12∑i(h(xi)−yi)2
Wenn wir aber durch die Anzahl der Summanden dividieren, erhalten wir den durchschnittlichen Fehler pro Datenpunkt
12m∑i(h(xi)−yi)2
Der Nutzen des durchschnittlichen Fehlers ist , dass , wenn wir zwei Datensätze und { x ' i , y ' i } von Größen differeing , dann können wir die durchschnittlichen Fehler vergleichen , nicht aber die Gesamtfehler. Wenn der zweite Datensatz beispielsweise zehnmal so groß ist wie der erste, ist der Gesamtfehler für dasselbe Modell etwa zehnmal so groß. Auf der anderen Seite teilt der durchschnittliche Fehler die Auswirkung der Größe des Datensatzes auf, sodass wir erwarten würden, dass Modelle mit ähnlicher Leistung ähnliche durchschnittliche Fehler in verschiedenen Datensätzen aufweisen.{xi,yi}{x′i,y′i}