Was bedeuten Doppelbalken und 2 unten in gewöhnlichen kleinsten Quadraten?

Ich habe diese Notation für gewöhnliche kleinste Quadrate hier gesehen .

min_{w} {‖ X w - y ‖}_{2}^{2}

$\min_w \left\| Xw - y \right\|^2_2$

Ich habe noch nie die Doppelstangen und die 2 unten gesehen. Was bedeuten diese Symbole? Haben sie eine spezifische Terminologie für sie?

— Aseem Bansal
quelle

Die Verwendung der Doppelbalken zeigt nur an, dass wir die L2-Norm verwenden.

— Michael R. Chernick

@ MichaelChernick und die 2? Ist das Teil der "L2-Norm"?

— Aseem Bansal

Ja, wie L2 gibt es auch L1.

— Jon

Ich denke,

X_{w}

$X_w$ sollte

X w

$Xw$ da

w

$w$ ein Vektor ist

— ilanman

@ilanman Ja, das war in der Notation vor der Bearbeitung. Ich habe es zurück geändert

— Aseem Bansal

Sie sprechen von der Norm (euklidische Norm) des Vektors ( ). Wenn Ihnen dies kurz fremd ist, lautet die Norm eines Vektors : $\ell_2$ $Xw - y$ $\ell_p$ $u \in \mathbb{R}^{n}$

‖ u ‖_{p} = (\sum_{i = 1}^{n} | u_{i} |^{p})^{\frac{1}{p}}

$\|u\|_p = \big(\sum_{i=1}^{n} |u_i|^p\big)^{\frac1p}$

Also in deinem Fall was mit der Summe der quadratischen Residuen für eine lineare Regression übereinstimmt. Im Zusammenhang mit Regressionsproblemen wird dies auch häufig bei Berechnungen des mittleren quadratischen Fehlers (MSE) und bei der Gratregression auftreten . $\|u\|_2^2 = (\big(\sum\limits_{i=1}^{n} |u_i|^2\big)^{\frac12})^2 = \sum\limits_{i=1}^{n} u_i^2$

Dies ist eine gängige Norm (unter anderem aus mathematischen Gründen). Wenn dies aus dem Kontext hervorgeht, werden die unteren weggelassen und nur . $2$ $\|u\|^2$

Wie in den Kommentaren erwähnt, sehen Sie möglicherweise auch die -Norm: $\ell_1$

‖ u ‖_{1} = \sum_{i = 1}^{n} | u_{i} |

$\|u\|_1 = \sum_{i=1}^{n} |u_i|$

Welches entspricht dem absoluten Wert. Auch hier sehen Sie dies in mittleren absoluten Fehler- (MAE) oder Lasso- Problemen.

Andere populäre Normen:

: Hamming-Abstand oder von Nicht-Nullen in einem Vektor, dh bei der Berechnung der Sparsity eines Vektors. Technisch gesehen ist dies keine Norm (es ist eine Kardinalitätsfunktion), da Sie einen -Term in der Definition haben, aber er hat die Form einer Norm, also nennen wir ihn eine.
- Diese Norm ist die ideale Norm, um Sparsity für Regressionsprobleme zu induzieren, da wir die Koeffizienten wirklich auf Null setzen wollen. Die Berechnung der Regularisierung ist jedoch NP-schwer. Stattdessen approximieren wir sie mit das über lineare Programmierung lösbar ist. Es ist auch in Compressed Sensing beliebt . $\ell_0$ $\ell_1$
$\ell_{\infty}$ -norm: = für $\underset{i} {\text{max}}$ $\{|x_i|\}$ $i = 1, ..., n$
$\|A\|_F$ : Frobenius-Norm (euklidisch), angewendet auf eine Matrix $A \in \mathbb{R}^{n\times m} = \sqrt{\sum \limits_{i=1}^{n}\sum \limits_{j=1}^{m}|a_{ij}|^2}$

— ilanman
quelle

Der Link zu Wolfram Alpha war wirklich hilfreich.

— Aseem Bansal

Sie schreiben, dass die (Pseudo) -Norm die Anzahl der Nullen in einem Vektor zählt - haben Sie vielleicht die Anzahl der Einträge ungleich Null gemeint? (Dies würde konsistenter mit dem sein, was ich gesehen habe, und würde auch bedeuten, dass der Hamming-Abstand zwischen und , im Gegensatz zu minus dem Entfernung.)

ℓ_{0}

$\ell_0$

‖ u ‖_{0}

$\lVert u \rVert_{0}$

u

$u$

0 \in R^{n}

$0 \in \mathbb R^n$

n

$n$

— wchargin

Rechtschreibfehler: "Frobenius".

— Hobbs

Anstelle von "das ist eine übliche Norm" hätte ich gerade gesagt "L2 ist die Norm";)

— user541686