Wenn die Multikollinearität hoch ist, würden die LASSO-Koeffizienten auf 0 schrumpfen?

Gegeben , was ist das theoretische Verhalten von LASSO - Koeffizienten und warum? $x_2 = 2 x_1$

Würde einer von oder auf oder beide schrumpfen ? $x_1$ $x_2$ $0$

require(glmnet)
x1 = runif(100, 1, 2)
x2 = 2*x1
x_train = cbind(x1, x2)
y = 100*x1 + 100 + runif(1)
ridge.mod = cv.glmnet(x_train, y, alpha = 1)
coef(ridge.mod)

#3 x 1 sparse Matrix of class "dgCMatrix"
#                       1
#(Intercept) 1.057426e+02
#x1          9.680073e+01
#x2          3.122502e-15

lasso multicollinearity

— John Hass
quelle

Ich bin mir nicht sicher, ob dies eine gute Simulation ist, da beide Koeffizienten tatsächlich Null sind. Es ist etwas interessanter, das Verhalten der Koeffizientenschätzungen zu betrachten, wenn eine echte Beziehung besteht.

— Dsaxton

Simulation verbessert. Ich biete die Simulation an, weil ich erklären möchte, was meine Frage ist. Ich habe mich nur für theoretische Ergebnisse dieser Frage interessiert.

— John Hass

Ich denke, das Verhalten wird unvorhersehbar sein, da das Modell nicht identifizierbar ist. Das heißt, wie kann das Modellanpassungsverfahren möglicherweise beispielsweise wissen, dass und statt und ? Es kann nicht, weil entweder "richtig" ist.

β_{1} = 100

$\beta_1 = 100$

β_{2} = 0

$\beta_2 = 0$

β_{1} = 0

$\beta_1 = 0$

β_{2} = 50

$\beta_2 = 50$

— Dsaxton

Ich stimme Ihrer Argumentation zu. Gibt es eine mathematische Möglichkeit, dies zu beschreiben?

— John Hass

Ich denke, Sie meinten y = 100*x1 + 100 + runif(100), sonst erhalten Sie eine einzelne Zufallszahl, die recycelt und einheitlich zu allen anderen Einträgen hinzugefügt wird.

— Firebug

Antworten:

Beachten Sie, dass

\begin{aligned} ‖ y - X β ‖_{2}^{2} + λ ‖ β ‖_{1} & = ‖ y - β_{1} x_{1} - β_{2} x_{2} ‖_{2}^{2} + λ (| β_{1} | + | β_{2} |) \\ = ‖ y - (β_{1} + 2 β_{2}) x_{1} ‖_{2}^{2} + λ (| β_{1} | + | β_{2} |) . \end{aligned}

$\begin{align*} \|y-X\beta\|_2^2 + \lambda \|\beta\|_1 & = \|y - \beta_1 x_1 - \beta_2 x_2 \|_2^2 + \lambda \left( |\beta_1| + |\beta_2| \right) \\ & = \|y - (\beta_1 + 2 \beta_2) x_1 \|_2^2 + \lambda \left( |\beta_1| + |\beta_2| \right). \end{align*}$

Für jeden festen Wert des Koeffizienten gilt die Strafewird minimiert, wenn . Dies liegt daran , die Strafe auf wird zweimal so gewichtet! Um dies in Notation zu setzen,erfüllt für alle . Daher der Lasso-Schätzer $\beta_1 + 2\beta_2$ $|\beta_1| + |\beta_2|$ $\beta_1 = 0$ $\beta_1$

\tilde{β} = \arg min_{β : β_{1} + 2 β_{2} = K} | β_{1} | + | β_{2} |

$\tilde\beta = \arg\min_{\beta \, : \, \beta_1 + 2\beta_2 = K}|\beta_1| + |\beta_2|$

{\tilde{β}}_{1} = 0

$\tilde\beta_1 = 0$

K

$K$

\begin{aligned} \hat{β} & = \arg min_{β \in R^{p}} ‖ y - X β ‖_{2}^{2} + λ ‖ β ‖_{1} \\ = \arg min_{β \in R^{p}} ‖ y - (β_{1} + 2 β_{2}) x_{1} ‖_{2}^{2} + λ (| β_{1} | + | β_{2} |) \\ = \arg_{β} min_{K \in R} min_{β \in R^{p} : β_{1} + 2 β_{2} = K} ‖ y - K x_{1} ‖_{2}^{2} + λ (| β_{1} | + | β_{2} |) \\ = \arg_{β} min_{K \in R} {‖ y - K x_{1} ‖_{2}^{2} + λ min_{β \in R^{p} : β_{1} + 2 β_{2} = K} {(| β_{1} | + | β_{2} |)}} \end{aligned}

$\begin{align*} \hat\beta & = \arg\min_{\beta \in \mathbb{R}^p} \|y - X \beta\|_2^2 + \lambda \|\beta\|_1 \\ & = \arg\min_{\beta \in \mathbb{R}^p} \|y - (\beta_1 + 2 \beta_2) x_1 \|_2^2 + \lambda \left( |\beta_1| + |\beta_2| \right) \\ & = \arg_\beta \min_{K \in \mathbb{R}} \, \min_{\beta \in \mathbb{R}^p \, : \, \beta_1 + 2 \beta_2 = K} \, \|y - K x_1 \|_2^2 + \lambda \left( |\beta_1| + |\beta_2| \right) \\ & = \arg_\beta \min_{K \in \mathbb{R}} \, \left\{ \|y - K x_1 \|_2^2 + \lambda \min_{\beta \in \mathbb{R}^p \, : \, \beta_1 + 2 \beta_2 = K} \, \left\{ \left( |\beta_1| + |\beta_2| \right) \right\} \right\} \end{align*}$ erfüllt . Der Grund, warum die Kommentare zu OPs Frage irreführend sind, liegt darin, dass das Modell eine Strafe erhält: die

{\hat{β}}_{1} = 0

$\hat\beta_1 = 0$

(0, 50)

$(0, 50)$ und Koeffizienten ergeben den gleichen Fehler, aber unterschiedliche Norm! Außerdem ist es nicht notwendig, so etwas wie LARs zu betrachten: Dieses Ergebnis folgt unmittelbar aus den ersten Prinzipien.

(100, 0)

$(100,0)$

ℓ_{1}

$\ell_1$

Wie von Firebug hervorgehoben, ist der Grund, warum Ihre Simulation ein widersprüchliches Ergebnis zeigt, dass glmnetdie Features automatisch auf die Einheitsvarianz skaliert werden. Das heißt, aufgrund der Verwendung von glmnetsind wir effektiv für den Fall, dass . Dort ist der Schätzer nicht mehr eindeutig: und sind beide im min. In der Tat ist für jedes in so dass . $x_1 = x_2$ $(100,0)$ $(0,100)$ $(a,b)$ $\arg\min$ $a,b \geq 0$ $a+b = 100$

In diesem Fall mit gleichen Merkmalen glmnetwird in genau einer Iteration konvergiert: Der erste Koeffizient wird mit einem weichen Schwellenwert versehen, und der zweite Koeffizient wird mit einem weichen Schwellenwert auf Null gesetzt.

Dies erklärt, warum die Simulation insbesondere gefunden . In der Tat ist der zweite Koeffizient unabhängig von der Reihenfolge der Merkmale immer Null. $\hat\beta_2 = 0$

Beweis: Nehmen Sie WLOG an, dass das Feature erfüllt . Der Koordinatenabstieg (der von ) verwendete Algorithmus berechnet für die erste Iteration: gefolgt von wobei . Dann, da $x \in \mathbb{R}^n$ $\|x\|_2 = 1$ glmnet

{\hat{β}}_{1}^{(1)} = S_{λ} (x^{T} y)

$\hat\beta_1^{(1)} = S_\lambda(x^T y)$

\begin{aligned} {\hat{β}}_{2}^{(1)} & = S_{λ} [x^{T} (y - x S_{λ} (x^{T} y))] \\ = S_{λ} [x^{T} y - x^{T} x (x^{T} y + T)] \\ = S_{λ} [- T] \\ = 0, \end{aligned}

$\begin{align*} \hat\beta_2^{(1)} & = S_\lambda \left[ x^T \left( y - x S_\lambda (x^T y) \right) \right] \\ & = S_\lambda \left[ x^T y - x^T x \left( x^T y + T \right) \right] \\ & = S_\lambda \left[ - T \right] \\ & = 0, \end{align*}$

T = {\begin{cases} - λ & if x^{T} y > λ \\ λ & if x^{T} y < - λ \\ 0 & otherwise \end{cases}

$T = \begin{cases} - \lambda & \textrm{ if } x^T y > \lambda \\ \lambda & \textrm{ if } x^T y < -\lambda \\ 0 & \textrm{ otherwise} \end{cases}$

{\hat{β}}_{2}^{(1)} = 0

$\hat\beta_2^{(1)}= 0$ Die zweite Iteration des Koordinatenabfalls wiederholt die obigen Berechnungen. Induktiv sehen wir, dass für alle Iterationen und . Daher wird und da das Stoppkriterium sofort erreicht wird.

{\hat{β}}_{j}^{(i)} = {\hat{β}}_{j}^{(i)}

$\hat\beta_j^{(i)} = \hat\beta_j^{(i)}$

i

$i$

j \in {1, 2}

$j \in \{1,2\}$ glmnet

{\hat{β}}_{1} = {\hat{β}}_{1}^{(1)}

$\hat\beta_1 = \hat\beta_1^{(1)}$

{\hat{β}}_{2} = {\hat{β}}_{2}^{(1)}

$\hat\beta_2 = \hat\beta_2^{(1)}$

— user795305
quelle

glmnetIch bin mir ziemlich sicher, dass die Funktionsskalierung standardmäßig aktiviert ist. So und das gleiche im Modell geworden.

x_{1}

$x_1$

x_{2}

$x_2$

— Firebug

Versuchen Sie stattdessen ridge.mod=cv.glmnet(x_train,y,alpha=1, standardize = FALSE); coef(ridge.mod)

— Folgendes

Das hat es geschafft! Tolles Denken, @Firebug! Nun wird der Koeffizient von tatsächlich als Null geschätzt. Vielen Dank für Ihre Erkenntnisse!

x_{1}

$x_1$

— user795305

Wenn ich Ihren Code erneut ausführe, stelle ich fest, dass der Koeffizient von numerisch nicht von Null zu unterscheiden ist. $x_2$

Um besser zu verstehen, warum LASSO diesen Koeffizienten auf Null setzt, sollten Sie sich die Beziehung zwischen LASSO und LAR (Least Angle Regression) ansehen. LASSO kann als LAR mit einer speziellen Modifikation angesehen werden.

Der Algorithmus von LAR sieht ungefähr so aus: Beginnen Sie mit einem leeren Modell (mit Ausnahme eines Abschnitts). Fügen Sie dann die Prädiktorvariable hinzu, die am meisten mit korreliert , z . B. . Ändern Sie den Koeffizienten dieses Prädiktors , bis der Rest gleichermaßen mit und einer anderen Prädiktorvariablen korreliert ist . Ändern Sie dann die Koeffizienten von und bis ein dritter Prädiktor gleichermaßen mit dem Rest usw. . $y$ $x_j$ $\beta_j$ $y - c - x_j\beta_j$ $x_j$ $x_k$ $x_j$ $x_k$ $x_l$ $y - c - x_j\beta_j -x_k\beta_k$

LASSO kann als LAR mit der folgenden Wendung angesehen werden: Sobald der Koeffizient eines Prädiktors in Ihrem Modell (ein "aktiver" Prädiktor) Null erreicht, lassen Sie diesen Prädiktor aus dem Modell fallen. Dies passiert, wenn Sie auf die kollinearen Prädiktoren zurückführen: Beide werden gleichzeitig zum Modell hinzugefügt, und wenn sich ihre Koeffizienten ändern, ändert sich ihre jeweilige Korrelation mit den Residuen proportional, aber einer der Prädiktoren wird gelöscht von der aktiven Menge zuerst, weil sie zuerst Null trifft. Welcher der beiden kollinearen Prädiktoren es sein wird, weiß ich nicht. [EDIT: Wenn Sie die Reihenfolge von und umkehren , können Sie sehen, dass der Koeffizient von $y$ $x_1$ $x_2$ $x_1$ wird auf Null gesetzt. Der glmnet-Algorithmus scheint also einfach zuerst die Koeffizienten auf Null zu setzen, die später in der Entwurfsmatrix geordnet werden.]

Eine Quelle, die diese Dinge ausführlicher erklärt, ist Kapitel 3 in "Die Elemente des statistischen Lernens" von Friedman, Hastie und Tibshirani.

— Matthias Schmidtblaicher
quelle