Gruppe elastisches Netz

Das Lasso und das elastische Netz können keine Variablen mit mehr als zwei Kategorien verarbeiten. Daher ist für die Anwendung dieser Methoden eine Aufteilung der kategorialen Variablen in Dummies erforderlich. Dies kann zu mehreren Problemen führen, und daher gibt es Erweiterungen für das Lasso zum Gruppen-Lasso oder zum spärlichen Gruppen-Lasso .

Ich frage mich jedoch, ob solche Verlängerungen auch für elastische Netze existieren. Leider konnte ich keine statistische Literatur zu diesem Thema finden.

Frage: Gibt es ein elastisches Gruppennetz?

— JSP
quelle

Schauen Sie sich Rs glmnet-Paket an ...

— kjetil b halvorsen

Ja, ich denke das ist richtig.

— kjetil b halvorsen

In einem sehr realen Sinne ist dieses "gruppenelastische Netz" nur eine Version von "Gruppen-Lasso", bei der sich die Gruppen überlappen dürfen. Wenn zum Beispiel Ihre Gruppe von Gruppen ist, führen Sie das Gruppen-Lasso unter , wobei wir davon ausgehen, dass es Features gibt . Dies entspricht dem elastischen Gruppennetz bis zu einer Neuparametrisierung des Abstimmparameters, der steuert .

G

$\mathcal{G}$

G \cup {{1, \dots, p}}

$\mathcal{G} \cup \{ \{1, \dots, p\} \}$

p

$p$

{1, \dots, p}

$\{1, \dots, p\}$

— user795305

Die Menge ist im Gegensatz zu selbst keine Partition mehr . (Dies ist der überlappende Kommentar.) Der Teil über die verschiedenen Parametrisierungen bezieht sich nur auf die Zielfunktion, die ich als Neuparametrisierung der Funktion diskutiere, die Sie wahrscheinlich diskutieren. Dieser Kommentar kann imo weitgehend ignoriert werden. Auch das von @kjetilbhalvorsen empfohlene Verfahren scheint nicht korrekt zu sein. Die dort diskutierte Gruppierung gilt für den Fall, dass eine multivariate Antwort vorliegt. Das ist anders. Sie können hierfür jedoch beispielsweise das Paket verwenden.

G \cup {{1, \dots, p}}

$\mathcal{G} \cup \{\{1, \dots, p\}\}$

G

$\mathcal{G}$ gglasso

— user795305

(Hinweis:

— Setzen

Sei die Gruppierung, an der Sie interessiert sind. Das heißt, sei eine Partition von , wobei wir betrachten, dass es Merkmale gibt. Mit der Antwort und der Entwurfsmatrix lautet der Gruppen-Lasso-SchätzerWenn wir eine weitere quadratische Strafe , um eine Gesamtschrumpfung zu induzieren, erhalten wir den Schätzer $\mathcal{G}$ $\mathcal{G}$ $\{1, \dots, p\}$ $p$ $y \in \mathbb{R}^n$ $X \in \mathbb{R}^{n \times p}$

\arg min_{β \in R^{p}} \frac{1}{2 n} ‖ y - X β ‖_{2}^{2} + λ \sum_{g \in G} | G |^{1 / 2} ‖ β_{g} ‖_{2} .

$\arg\min_{\beta \in \mathbb{R}^p} \frac{1}{2n} \|y - X \beta \|_2^2 + \lambda \sum_{g \in \mathcal{G}} |\mathcal{G}|^{1/2} \|\beta_g\|_2.$

ℓ_{2}

$\ell_2$

\arg min_{β \in R^{p}} \frac{1}{2 n} ‖ y - X β ‖_{2}^{2} + λ \sum_{g \in G} | G |^{1 / 2} ‖ β_{g} ‖_{2} + μ ‖ β ‖_{2}^{2} .

$\arg\min_{\beta \in \mathbb{R}^p} \frac{1}{2n} \|y - X \beta \|_2^2 + \lambda \sum_{g \in \mathcal{G}} |\mathcal{G}|^{1/2} \|\beta_g\|_2 + \mu \|\beta\|_2^2.$ Wir könnten dies das "gruppenelastische Netz" nennen. Durch die Lagrange-Dualität können wir schreiben

\begin{aligned} \arg min_{β \in R^{p}} & \frac{1}{2 n} ‖ y - X β ‖_{2}^{2} + λ \sum_{g \in G} | G |^{1 / 2} ‖ β_{g} ‖_{2} + μ ‖ β ‖_{2}^{2} \\ = \arg min_{β \in R^{p} : ‖ β ‖_{2}^{2} \leq C} & \frac{1}{2 n} ‖ y - X β ‖_{2}^{2} + λ \sum_{g \in G} | G |^{1 / 2} ‖ β_{g} ‖_{2} \\ = \arg min_{β \in R^{p} : ‖ β ‖_{2} \leq \sqrt{C}} & \frac{1}{2 n} ‖ y - X β ‖_{2}^{2} + λ \sum_{g \in G} | G |^{1 / 2} ‖ β_{g} ‖_{2} \\ = \arg min_{β \in R^{p}} & \frac{1}{2 n} ‖ y - X β ‖_{2}^{2} + λ \sum_{g \in G} | G |^{1 / 2} ‖ β_{g} ‖_{2} + \tilde{μ} ‖ β ‖_{2} \\ = \arg min_{β \in R^{p}} & \frac{1}{2 n} ‖ y - X β ‖_{2}^{2} + (λ \sum_{g \in G} | G |^{1 / 2} ‖ β_{g} ‖_{2} + {\tilde{μ}}^{'} p^{1 / 2} ‖ β ‖_{2}), \end{aligned}

$\begin{align*} \arg\min_{\beta \in \mathbb{R}^p} & \frac{1}{2n} \|y - X \beta \|_2^2 + \lambda \sum_{g \in \mathcal{G}} |\mathcal{G}|^{1/2} \|\beta_g\|_2 + \mu \|\beta\|_2^2 \\ = \, \arg\min_{\beta \in \mathbb{R}^p \, : \, \|\beta\|_2^2 \leq C} & \frac{1}{2n} \|y - X \beta \|_2^2 + \lambda \sum_{g \in \mathcal{G}} |\mathcal{G}|^{1/2} \|\beta_g\|_2 \\ = \, \arg\min_{\beta \in \mathbb{R}^p \, : \, \|\beta\|_2 \leq \sqrt{C}} & \frac{1}{2n} \|y - X \beta \|_2^2 + \lambda \sum_{g \in \mathcal{G}} |\mathcal{G}|^{1/2} \|\beta_g\|_2 \\ = \, \arg\min_{\beta \in \mathbb{R}^p} & \frac{1}{2n} \|y - X \beta \|_2^2 + \lambda \sum_{g \in \mathcal{G}} |\mathcal{G}|^{1/2} \|\beta_g\|_2 + \tilde\mu \|\beta\|_2 \\ = \, \arg\min_{\beta \in \mathbb{R}^p} & \frac{1}{2n} \|y - X \beta \|_2^2 + \left( \lambda \sum_{g \in \mathcal{G}} |\mathcal{G}|^{1/2} \|\beta_g\|_2 + \tilde\mu' p^{1/2} \|\beta\|_2 \right), \end{align*}$ Dabei ist die entsprechende duale Variable und . Wie wir sehen können, ist dieser letzte Ausdruck ein Gruppen-Lasso mit "überlappenden" Gruppen, da keine Partition mehr ist. Ferner hat die Gruppe eine doppelte Variable (oder Abstimmungsvariable) die sich von der doppelten Variablen für die anderen Gruppen unterscheidet.

\tilde{μ}

$\tilde\mu$

{\tilde{μ}}^{'} = p^{- 1 / 2} \tilde{μ}

$\tilde\mu' = p^{-1/2} \tilde\mu$

G \cup {1, \dots, p}

$\mathcal{G} \cup \{1, \dots, p\}$

{1, \dots, p}

$\{1, \dots, p\}$

\tilde{μ}

$\tilde\mu$

λ

$\lambda$

Dies kann ein Optimierungsproblem sein, das mit dem Paket gelöst werden kann gglasso. Wenn Sie den Abschnitt auf Seite 9 der Dokumentation lesen , erfahren Sie gglasso, welche Funktion verwendet werden sollte. Beachten Sie, dass das Argument pmaxmanuell mit einer letzten Komponente versehen werden muss, die als Optimierungsparameter dient.

— user795305
quelle