Mittelwert der L1-Regressionsschätzung, Mittelwert der L2-Regressionsschätzung?

24

Daher wurde mir die Frage gestellt, welche zentralen Kennzahlen L1 (dh Lasso) und L2 (dh Gratregression) geschätzt wurden. Die Antwort lautet L1 = Median und L2 = Mittelwert. Gibt es irgendeine Art von intuitivem Denken dafür? Oder muss es algebraisch ermittelt werden? Wenn ja, wie mache ich das?

— Bstat
quelle

4

Beziehen Sie sich mit L1 / L2 auf die Zielfunktion oder die Nebenbedingungen? Wenn die objektive Funktion ja ist, wird der L1-Fehler mit dem bedingten Median und L2 mit dem bedingten Mittelwert minimiert. Wenn Einschränkungen (worauf sich Ridge / Lasso bezieht), ist dies der falsche Weg, darüber nachzudenken. Ihre "zentralen Maßnahmen" zielen weiterhin auf einen bedingten Mittelwert, jedoch mit unterschiedlichen Strafen für

β

$\beta$ .

— Muratoa

24

Es gibt eine einfache geometrische Erklärung, warum die L1-Verlustfunktion den Median ergibt.

Denken Sie daran, dass wir in einer Dimension arbeiten. Stellen Sie sich also eine horizontal verlaufende Zahlenlinie vor. Zeichnen Sie jeden der Datenpunkte auf der Zahlenlinie. Legen Sie Ihren Finger irgendwo auf die Linie; Ihr Finger wird Ihre aktuelle Kandidatenschätzung sein.

Angenommen, Sie bewegen Ihren Finger ein wenig nach rechts, sagen wir $\delta$ Einheiten nach rechts. Was passiert mit dem Totalverlust? Wenn sich Ihr Finger zwischen zwei Datenpunkten befand und Sie ihn über einen Datenpunkt bewegen, haben Sie den Gesamtverlust für jeden Datenpunkt links von Ihrem Finger um erhöht $\delta$ und für jeden Datenpunkt auf verringert $\delta$ die rechte Hand. Wenn sich also rechts von Ihrem Finger mehr Datenpunkte als links befinden, wird durch Bewegen des Fingers nach rechts der Gesamtverlust verringert. Mit anderen Worten, wenn sich mehr als die Hälfte der Datenpunkte rechts von Ihrem Finger befindet, sollten Sie Ihren Finger nach rechts bewegen.

Dies führt dazu, dass Sie Ihren Finger zu einem Punkt bewegen, an dem sich die Hälfte der Datenpunkte auf diesem Punkt und die Hälfte auf der rechten Seite befindet. Dieser Punkt ist der Median.

Das ist L1 und der Median. Leider habe ich keine ähnliche Erklärung für L2 und den Mittelwert.

— DW
quelle

7

Wenn es sich um eine einfache Punktschätzung handelt, handelt es sich um eine einfache Berechnung.

\frac{d}{d β} \frac{1}{n} \sum_{i = 1}^{n} (y_{i} - β)^{2} = - 2 \frac{1}{n} \sum_{i = 1}^{n} (y_{i} - β) = 0 \Rightarrow β = \frac{1}{n} \sum_{i} y_{i}

$\frac{d}{d \beta} \frac{1}{n}\sum_{i=1}^n (y_i - \beta)^2 = -2\frac{1}{n}\sum_{i=1}^n(y_i - \beta) = 0 \Rightarrow \beta = \frac{1}{n}\sum_i y_i$

— muratoa

3

@muratoa, ja, ich kenne die Kalkülableitung, aber die Frage fragt speziell nach einer Erklärung, die sich auf Intuition konzentriert und Algebra vermeidet. Ich würde annehmen, dass der Fragesteller die Kalkülableitung bereits kennt, aber nach etwas sucht, das mehr Intuition bietet.

— DW

Ich dachte, das OP erwähnte die Regression, die nahelegt, dass er über die Schätzung von y bei gegebenem x spricht, das ein bedingter Mittelwert unter Verwendung der kleinsten Quadrate und des bedingten Medians für den mittleren absoluten Fehler ist. Die gleichen Erklärungen sollten funktionieren, aber das Problem ist etwas anders. Die Kalkülerklärung für den Mittelwert ist ziemlich klar und unkompliziert. Möglicherweise kann eine Erklärung für den Mittelwert in ähnlicher Weise wie für den Median angegeben werden. Der Stichprobenmittelwert ist eine unvoreingenommene Schätzung des Bevölkerungsmittelwerts.

— Michael R. Chernick

Wenn Sie die Schätzung vom Stichprobenmittelwert entfernen, ändert sich der mittlere quadratische Fehler aufgrund einer Zunahme der Verzerrung. Der mittlere quadratische Fehler erhöht sich tatsächlich um d

wenn die Schätzung d zum Stichprobenmittelwert als Kandidatenschätzung hinzufügt.

^{2}

$^2$

— Michael R. Chernick

11

Für den L1-Fall existiert eine schnelle und schmutzige Version der von muratoa gegebenen Algebra. Man beachte, dass, außer wenn

, die Ableitung von

WRT

ist

, das heißt

, wenn

und

, wenn

. Also

β = y_{i}

$\beta = y_i$

| y_{i} - β |

$| y_i -\beta |$

β

$\beta$

- s g n (y_{i} - β)

$-\mathrm{sgn}(y_i-\beta)$

- 1

$-1$

β < y_{i}

$\beta < y_i$

+ 1

$+1$

β > y_{i}

$\beta > y_i$

, außer wenn

ein

. Die Ableitung verschwindet, wenn es unter

die gleiche Anzahl positiver und negativer Terme gibt, was ungefähr dann auftritt, wenn

der Median von

.

\frac{d}{d β} \frac{1}{n} \sum_{i} | y_{i} - β | = - \frac{1}{n} \sum_{i} s g n (y_{i} - β)

$\frac{\mathrm{d}}{\mathrm{d}\beta} \,\frac{1}{n}\sum_i | y_i -\beta | = -\frac{1}{n}\,\sum_i \mathrm{sgn}(y_i-\beta)$

β

$\beta$

y_{i}

$y_i$

y_{i} - β

$y_i-\beta$

β

$\beta$

y_{i}

$y_i$

— Yves

17

Diese Erklärung ist eine Zusammenfassung der Kommentare von Muratoa und Yves zur Antwort von DW. Obwohl es auf Kalkül basiert, fand ich es einfach und leicht zu verstehen.

Angenommen , wir haben und wollen eine neue Schätzung basierend auf ihnen erhalten. Der kleinste Verlust wird erhalten, wenn wir finden , das die Ableitung des Verlusts auf Null macht. $y_1, y_2, ... y_k$ $\beta$ $\beta$

L1-Verlust

L 1 = \frac{1}{k} \sum_{i = 1}^{k} | y_{i} - β |

$L1=\frac{1}{k}\sum_{i=1}^k|y_i-\beta|$

ist 1, wenn

, -1, wenn

. Die Ableitung ist gleich 0, wenn es unter

die gleiche Anzahl positiver und negativer Terme gibt, was bedeutet, dass

der Median von

.

\frac{\partial L_{1}}{\partial β} = - \frac{1}{k} \sum_{i = 1}^{k} s g n (y_{i} - β)

$\frac{\partial L_1}{\partial\beta}=-\frac{1}{k}\sum_{i=1}^k sgn(y_i-\beta)$

s g n (y_{i} - β)

$sgn(y_i-\beta)$

y_{i} > β

$y_i>\beta$

y_{i} < β

$y_i<\beta$

y_{i} - β

$y_i-\beta$

β

$\beta$

y_{i}

$y_i$

L2-Verlust

L 2 = \frac{1}{k} \sum_{i = 1}^{k} (y_{i} - β)^{2}

$L2=\frac{1}{k}\sum_{i=1}^k(y_i-\beta)^2$

\frac{\partial L_{2}}{\partial β} = - \frac{2}{k} \sum_{i = 1}^{k} (y_{i} - β)

$\frac{\partial L_2}{\partial\beta}=-\frac{2}{k}\sum_{i=1}^k(y_i-\beta)$

\frac{\partial L_{2}}{\partial β} = 0 \to β = \frac{1}{k} \sum_{i = 1}^{k} y_{i}

$\frac{\partial L_2}{\partial\beta}=0\rightarrow\beta=\frac{1}{k}\sum_{i=1}^k y_i$
So to minimize L2 loss,

β

$\beta$ should be the mean of

y_{i}

$y_i$ .

— chefwen
quelle

3

Adding to D.W.'s answer with an even more practical example (for L2 loss function as well):

Imagine a small village made of 4 houses close to each other (e.g. 10 meters). At 1 kilometer from those, you have another very isolated house. Now, you arrive in that town and want to build your own house somewhere. You want to live close to the other houses and be friend with everybody. Consider those two alternative scenarios:

You decide to be at the location where the average distance to any house is the smallest (i.e. minimizing a L1 loss function).
- If you put your house at the center of the village, you will be around 10 meters away from 4 houses and 1 kilometer away from one house, which gives you an average distance of about 200 meters (10+10+10+10+1000 / 5).
- If you place your house 500 meters away from the village, you will be around 500 meters away from 5 houses, which gives you an average distance of 500 meters.
- If you place your house next to the isolated house, you will be 1km away from the village (4 houses) and around 10 meters away from 1 house, which gives you an average distance of about 800 meters.
So the lowest average distance of 100 meters is reached by building your house in the village. More specifically, you will build your house in the middle of these 4 houses to gain a few more meters of average distance. And it turns out that this point is the "median point", that you would have obtained similarly using the median formula.
You decide to take a democratic approach. You ask each of your five future neighbors their preferred location for your new house. They all like you and want you to live close to them. So they all state their preferred location to be the spot just next to their own house. You take the average of all the voted locations of your five neighbors, and the result is "200 meters away from the village" (average of the votes: 0+0+0+0+1000/5 = 200), which is the "mean point" of the 5 houses, that you would have obtained similarly using the mean formula. And this location turns out to be exactly the same that mimimizes the sum of squared distances (i.e. L2 loss function). Let's just do the math to see it:
- At this location, the sum of squared distances is: 200^2 + 200^2 + 200^2 + 200^2 + 800^2 = 800 000
- If we build the house in the center of the village, our sum of squared distances would be: 0^2 + 0^2 + 0^2 + 0^2 + 1000^2 = 1 000 000
- If we build build the house at 100 meters away from the village (like in 1), the sum of squared distances is: 100^2 + 100^2 + 100^2 + 100^2 + 900^2 = 850 000
- If we build the house at 100 meters away from the isolated house, the sum of squared distances is: 900^2 + 900^2 + 900^2 + 900^2 + 100^2 = 3 250 000

So yes, it is interesting to notice that, a bit counter-intuitively, when we minimize the sum of the distances, we don't end up being in the "middle" in the sense of the mean, but in the sense of the median. This is part of the reason why OLS, one of the most popular regression models, uses squared errors rather than absolute errors.

— Jonathan Zimmermann
quelle

1

In addition to the already-posted answers (which have been very helpful to me!), there is a geometric explanation for the connection between the L2 norm and the mean.

To use the same notation as chefwen, the formula for L2 loss is:

L 2 = \frac{1}{k} \sum_{i = 1}^{k} (y_{i} - β)^{2}

$L2 = \frac{1}{k} \sum^{k}_{i=1} (y_i - \beta)^2$

We wish to find the value of $\beta$ which minimizes $L2$ . Notice that this is equivalent to minimizing the following, since multiplying by $k$ and taking the square root both preserve order:

\sqrt{\sum_{i = 1}^{k} (y_{i} - β)^{2}}

$\sqrt { \sum^{k}_{i=1} (y_i - \beta)^2 }$

If you consider the data vector $y$ as a point in $k$ -dimensional space, this formula calculates the Euclidean distance between the point $y$ and the point $\vec{\beta} = (\beta, \beta, ..., \beta)$ .

So the problem is to find the value $\beta$ which minimizes the Euclidean distance between the points $y$ and $\vec{\beta}$ . Since the possible values of $\vec{\beta}$ all lie on the line parallel to $\vec{1} = (1, 1, ..., 1)$ by definition, this is equivalent to finding the vector projection of $y$ onto $\vec{1}$ .

It's only really possible to visualize this when $k = 2$ , but here is an example where $y = (2, 6)$ . As shown, projecting onto $\vec{1}$ yields $(4, 4)$ as we expect.

To show that this projection always yields the mean (including when $k > 2$ ) können wir die Formel für die Projektion anwenden :

\begin{aligned} \vec{β} & = {proj}_{\vec{1}} y \\ = \frac{y \cdot \vec{1}}{| \vec{1} |^{2}} \vec{1} \\ β & = \frac{\sum_{ich = 1}^{k} y_{ich}}{k} \end{aligned}

$\begin{alignat}{2} \vec{\beta} &= \operatorname{proj}_{\vec{1}}{y} \\ &= \frac{y \cdot \vec{1}}{|\vec{1}|^2}\vec{1} \\ \beta &= \frac{\sum^k_{i=1} y_i}{k} \end{alignat}$

— paul
quelle