Intuitiv kann das Gruppen-Lasso dem Lasso vorgezogen werden, da es uns die Möglichkeit bietet, (eine bestimmte Art von) zusätzlichen Informationen in unsere Schätzung für den wahren Koeffizienten . Als extremes Szenario unter Berücksichtigung der folgenden Punkte:β∗
Mit sei S = { j : β ∗ j ≠ 0 } als Träger von β ∗ . Betrachten wir die "Oracle" Schätzer β = arg min β ‖ y - X β ‖ 2 2 + λ ( | S | 1 / 2 ‖ β S ‖y∼ N( Xβ∗, σ2ich)S= { j : β∗j≠ 0 }β∗ die die Gruppe Lasso mit zwei Gruppen ist- man die wahre Träger und eine das Komplement. Lassen λ m ein x der kleinste Wert von seinem λ das macht β = 0 . Aufgrund der Natur der Gruppen-Lasso-Strafe wissen wir, dass sich bei λ von λ m a x nach λ m a x - ϵ bewegt
β^= argMindestβ∥ y- Xβ∥22+ λ ( | S|1 / 2∥ βS∥2+ ( p - | S| )1 / 2∥ βSC∥2) ,
λm a xλβ^= 0λλm a xλm a x- ϵ(für einige kleine
), wird genau eine Gruppe , in Unterstützung der Eingabe
β , die allgemein als eine Schätzung für die gilt
S . Aufgrund unserer Gruppierung wird die ausgewählte Gruppe mit hoher Wahrscheinlichkeit
S sein , und wir haben einen perfekten Job gemacht.
ϵ > 0β^SS
In der Praxis wählen wir die Gruppen nicht so gut aus. Die Gruppen, auch wenn sie feiner sind als das obige extreme Szenario, werden uns dennoch helfen: Die Wahl würde weiterhin zwischen einer Gruppe wahrer Kovariaten und einer Gruppe unwahrer Kovariaten getroffen werden. Wir leihen uns immer noch Kraft.
Dies wird hier formalisiert . Sie zeigen unter bestimmten Bedingungen, dass die Obergrenze des Vorhersagefehlers des Gruppen-Lassos niedriger ist als die Untergrenze des Vorhersagefehlers des einfachen Lassos. Das heißt, sie haben bewiesen, dass die Gruppierung unsere Einschätzung verbessert.
L(β)=∥y−Xβ∥22J(β)=∑g∈G|g|1/2∥βg∥2
(∇2L(β^)+λ∇2J(β^))−1∇J(β^)
J