Sparse lineare Regression 0-Norm und 1-Norm

Wir haben eine Antwort $Y \in \Bbb R^n$ und Prädiktoren $X = (x_1, x_2, \cdots, x_m)^T \in \Bbb R^{n \times m}$

Das Problem, das wir lösen wollen, ist

{argmin}_{k \in R^{m}} (‖ Y - X k ‖_{2}^{2} + λ ‖ k ‖_{0}) \to k_{0}

$\text{argmin}_{k \in \Bbb R^{m}} (\Vert Y - Xk \Vert_2^2 + \lambda \Vert k \Vert_0) \rightarrow k_0$

Es ist jedoch NP-schwer, also lösen wir stattdessen

{argmin}_{k \in R^{m}} (‖ Y - X k ‖_{2}^{2} + λ ‖ k ‖_{1}) \to k_{1}

$\text{argmin}_{k \in \Bbb R^{m}} (\Vert Y - Xk \Vert_2^2 + \lambda \Vert k \Vert_1) \rightarrow k_1$

In diesem Artikel "Lernen physikalischer Deskriptoren für die Materialwissenschaft durch komprimierte Abtastung" heißt es

mit stark korrelierten Merkmalen, $\lambda \Vert k \Vert_1$ ist möglicherweise keine gute Annäherung für $\lambda \Vert k \Vert_0$

Meine Fragen:

Beide $\lambda \Vert k \Vert_0$ und $\lambda \Vert k \Vert_1$ Legen Sie eine Einschränkung für die Anzahl der Nicht-Null-Komponenten des Vektors fest $k$ . Aber wenn Merkmale korreliert sind, was ist der Vorteil der $k$ das wird gefunden von $\lambda \Vert k \Vert_0$ ?

Gibt es darüber hinaus ein intuitives Beispiel, das den oben zitierten Punkt demonstriert?

regression feature-selection regularization

— meTchaikovsky
quelle

Wenn Merkmale korreliert sind, sollten Sie ein elastisches Netz und kein Lasso verwenden.
Wenn zwei Merkmale korreliert sind, würde Lasso das Merkmal ungefähr auswählen $i$ Über $j$ Wenn es die bessere Belohnung für die Verlustfunktion hat, bedeutet dies einen kleineren absoluten Wert $|\beta_i|$ des Regressionskoeffizienten zusammen mit einer guten Abnahme des Vorhersagefehlers $||y-X\beta||_2$ .
Auf der anderen Seite die $l_0$ -norm basierte Strafe würde die Funktion wählen $i$ Über $j$ wenn es auf eine gute Abnahme der Vorhersagefehler führt nur , da die Größe des Koeffizienten spielt keine Rolle, nur wenn es von Null verschieden ist (denken Sie daran, $||\beta||_0=\#\lbrace\beta_k\neq0\rbrace$ ).
Nun, meine Intuition wäre das $l_1$ - und $l_0$ -Norm-Strafen sind bei der Vorhersage korrekter Regressionskoeffizienten gleichermaßen schlecht, wenn Merkmale korreliert sind. Der Beweis von Satz 2 in diesem Artikel sollte veranschaulichen, warum dies tatsächlich der Fall ist. Dies würde jedoch im Widerspruch zu der Aussage und dem Beispiel des von Ihnen zitierten Papiers stehen.

— Edgar
quelle