Warum Gruppen-Lasso anstelle von Lasso verwenden?

13

Ich habe gelesen, dass das Gruppen-Lasso für die Variablenauswahl und die Sparsamkeit in einer Gruppe von Variablen verwendet wird. Ich möchte die Intuition hinter dieser Behauptung kennen.

Warum wird Gruppenlasso dem Lasso vorgezogen?
Warum ist der Lösungsweg des Gruppen-Lassos nicht stückweise linear?

— Vendetta
quelle

1

Was ich aus Yuan und Lin (2006) verstehe, ist Lasso für die Auswahl einzelner Variablen und nicht für die Auswahl von Faktoren. Lasso befasst sich also mit dem ANOVA-Problem, bei dem es darum geht, wichtige Haupteffekte und Wechselwirkungen für eine genaue Vorhersage auszuwählen, die auf die Auswahl von Variablengruppen hinausläuft. Das andere Beispiel ist ein Additionsmodell mit Polynom, bei dem jede Komponente als lineare Kombination von Basisfunktionen der ursprünglichen Messgrößen ausgedrückt wird

— Vendetta

11

Intuitiv kann das Gruppen-Lasso dem Lasso vorgezogen werden, da es uns die Möglichkeit bietet, (eine bestimmte Art von) zusätzlichen Informationen in unsere Schätzung für den wahren Koeffizienten . Als extremes Szenario unter Berücksichtigung der folgenden Punkte: $\beta^*$

Mit sei als Träger von . Betrachten wir die "Oracle" Schätzer $y \sim \mathcal{N} (X \beta^*, \sigma^2 I )$ $S = \{j : \beta^*_j \neq 0 \}$ $\beta^*$ die die Gruppe Lasso mit zwei Gruppen ist- man die wahre Träger und eine das Komplement. Lassen der kleinste Wert von seinem das macht . Aufgrund der Natur der Gruppen-Lasso-Strafe wissen wir, dass sich bei von nach bewegt

\hat{β} = \arg \underset{β}{Mindest} ‖ y - X β ‖_{2}^{2} + λ (| S |^{1 / 2} ‖ β_{S} ‖_{2} + (p - | S |)^{1 / 2} ‖ β_{S^{C}} ‖_{2}),

$\hat{\beta} = \arg\min_{\beta} \|y - X \beta\|_2^2 + \lambda \left( |S|^{1/2} \|\beta_S\|_2 + (p-|S|)^{1/2} \|\beta_{S^C}\|_2 \right),$

λ_{m a x}

$\lambda_{max}$

λ

$\lambda$

\hat{β} = 0

$\hat{\beta} = 0$

λ

$\lambda$

λ_{m a x}

$\lambda_{max}$

λ_{m a x} - ϵ

$\lambda_{max} - \epsilon$ (für einige kleine

), wird genau eine Gruppe , in Unterstützung der Eingabe

, die allgemein als eine Schätzung für die gilt

. Aufgrund unserer Gruppierung wird die ausgewählte Gruppe mit hoher Wahrscheinlichkeit

, und wir haben einen perfekten Job gemacht.

ϵ > 0

$\epsilon > 0$

\hat{β}

$\hat{\beta}$

S

$S$

S

$S$

In der Praxis wählen wir die Gruppen nicht so gut aus. Die Gruppen, auch wenn sie feiner sind als das obige extreme Szenario, werden uns dennoch helfen: Die Wahl würde weiterhin zwischen einer Gruppe wahrer Kovariaten und einer Gruppe unwahrer Kovariaten getroffen werden. Wir leihen uns immer noch Kraft.

Dies wird hier formalisiert . Sie zeigen unter bestimmten Bedingungen, dass die Obergrenze des Vorhersagefehlers des Gruppen-Lassos niedriger ist als die Untergrenze des Vorhersagefehlers des einfachen Lassos. Das heißt, sie haben bewiesen, dass die Gruppierung unsere Einschätzung verbessert.

$L(\beta) = \|y - X \beta\|_2^2$ $J(\beta) = \sum_{g \in G} |g|^{1/2} \|\beta_g\|_2$

{(\nabla^{2} L (\hat{β}) + λ \nabla^{2} J (\hat{β}))}^{- 1} \nabla J (\hat{β})

$\left( \nabla^2L(\hat{\beta}) + \lambda \nabla^2 J(\hat{\beta}) \right)^{-1} \nabla J(\hat{\beta})$

J

$J$

— user795305
quelle

2

Das macht jetzt sehr viel Sinn. Vielen Dank für Ihre Antwort.

— Vendetta

4

Bens Antwort ist das allgemeinste Ergebnis. Die intuitive Antwort auf das OP ist jedoch durch den Fall kategorialer Prädiktoren motiviert, die normalerweise als mehrere Dummy-Variablen codiert sind: eine für jede Kategorie. In vielen Analysen ist es sinnvoll, diese Dummy-Variablen (die einen kategorialen Prädiktor darstellen) zusammen und nicht getrennt zu betrachten.

Wenn Sie eine kategoriale Variable mit beispielsweise fünf Ebenen haben, lässt ein Straight Lasso möglicherweise zwei In- und drei Outs. Wie gehen Sie prinzipiell damit um? Entscheide dich zu stimmen? Verwenden Sie im wahrsten Sinne des Wortes die Dummy-Variablen anstelle der aussagekräftigeren kategorialen? Wie wirkt sich Ihre Dummy-Codierung auf Ihre Auswahl aus?

Wie in der Einführung von The group lasso for logistic regression heißt es:

Bereits für den Sonderfall der linearen Regression, bei dem nicht nur kontinuierliche, sondern auch kategoriale Prädiktoren (Faktoren) vorliegen, ist die Lasso-Lösung nicht zufriedenstellend, da nur einzelne Dummy-Variablen anstelle ganzer Faktoren ausgewählt werden. Darüber hinaus hängt die Lasso-Lösung davon ab, wie die Dummy-Variablen codiert werden. Die Auswahl unterschiedlicher Kontraste für einen kategorialen Prädiktor führt im Allgemeinen zu unterschiedlichen Lösungen.

Wie Ben hervorhebt, gibt es auch subtilere Verknüpfungen zwischen Prädiktoren, die möglicherweise darauf hinweisen, dass sie zusammen ein- oder ausgehen sollten. Aber kategoriale Variablen sind das Aushängeschild für Gruppen-Lasso.

— Wayne
quelle

@Ben: Hmmm ... Ich kann den ersten Kommentar des OP nicht wirklich verstehen. Es sieht so aus, als wäre es eine Antwort auf einen jetzt gelöschten Kommentar? Die Frage selbst und ihr Titel - wie die meisten Zuschauer sie lesen werden - scheint eine allgemeine Frage zu sein. Ich werde meine Antwort auf jeden Fall löschen, wenn Frage und Titel in "Welche nicht offensichtlichen Anwendungen gibt es, um Lasso über den Fall kategorialer Variablen hinaus zu gruppieren?" Geändert werden.

— Wayne

Okay. Ich mag Ihren Standpunkt dazu, wie die Verwendung von (einfachem) Lasso bei Faktoren die Schätzungen von der Kodierung der Faktoren abhängig macht! Ich habe früher nur gedacht, dass das Gruppen-Lasso uns eine Art "Mess-Sparsity" anstelle eines "Parameter-Sparsity" gibt (dh wir sollten den Faktor messen müssen oder nicht - alle Ebenen sollten ausgewählt sein oder keine.)

— user795305