Ist die Fehlerrate eine konvexe Funktion des Regularisierungsparameters Lambda?

Bei der Auswahl des Regularisierungsparameters Lambda in Ridge oder Lasso wird empfohlen, verschiedene Lambda-Werte auszuprobieren, den Fehler im Validierungssatz zu messen und schließlich den Lambda-Wert auszuwählen, der den niedrigsten Fehler zurückgibt.

Es ist mir kein Problem, wenn die Funktion f (Lambda) = Fehler konvex ist. Könnte es so sein? Dh könnte diese Kurve mehr als ein lokales Minimum haben (was bedeuten würde, dass das Finden eines Minimums des Fehlers in einer Region von Lambda nicht die Möglichkeit ausschließt, dass in einer anderen Region ein Lambda einen noch kleineren Fehler zurückgibt)

Ihr Rat wird geschätzt.

— rf7
quelle

Antworten:

In der ursprünglichen Frage wurde gefragt, ob die Fehlerfunktion konvex sein muss. Nein, tut es nicht. Die unten dargestellte Analyse soll einen Einblick und eine Intuition in diese und die modifizierte Frage geben, in der gefragt wird, ob die Fehlerfunktion mehrere lokale Minima haben könnte.

Intuitiv muss es keine mathematisch notwendige Beziehung zwischen den Daten und dem Trainingssatz geben. Wir sollten in der Lage sein, Trainingsdaten zu finden, für die das Modell anfangs schlecht ist, mit einer gewissen Regularisierung besser wird und dann wieder schlechter wird. Die Fehlerkurve kann in diesem Fall nicht konvex sein - zumindest nicht, wenn der Regularisierungsparameter von bis variiert . $0$ $\infty$

Beachten Sie, dass konvex nicht gleichbedeutend mit einem eindeutigen Minimum ist! Ähnliche Ideen deuten jedoch darauf hin, dass mehrere lokale Minima möglich sind: Während der Regularisierung wird das angepasste Modell möglicherweise für einige Trainingsdaten besser, während es sich für andere Trainingsdaten nicht nennenswert ändert, und später wird es für andere Trainingsdaten usw. besser. Ein geeignetes Eine Mischung solcher Trainingsdaten sollte mehrere lokale Minima erzeugen. Um die Analyse einfach zu halten, werde ich nicht versuchen, das zu zeigen.

Bearbeiten (um auf die geänderte Frage zu antworten)

Ich war von der unten dargestellten Analyse und der dahinter stehenden Intuition so überzeugt, dass ich mich daran machte, ein Beispiel auf die gröbste Art und Weise zu finden: Ich habe kleine zufällige Datensätze generiert, ein Lasso darauf ausgeführt und den quadratischen Gesamtfehler für einen kleinen Trainingssatz berechnet. und zeichnete seine Fehlerkurve. Einige Versuche ergaben einen mit zwei Minima, die ich beschreiben werde. Die Vektoren haben die Form für die Merkmale und und die Antwort . $(x_1,x_2,y)$ $x_1$ $x_2$ $y$

Trainingsdaten

(1, 1, - 0.1), (2, 1, 0.8), (1, 2, 1.2), (2, 2, 0.9)

$(1,1,-0.1),\ (2,1,0.8),\ (1,2,1.2),\ (2,2,0.9)$

Testdaten

(1, 1, 0.2), (1, 2, 0.4)

$(1,1,0.2),\ (1,2,0.4)$

Das Lasso wurde mit glmnet::glmmetin ausgeführt R, wobei alle Argumente auf ihren Standardeinstellungen belassen wurden. Die Werte von auf der x-Achse sind die Kehrwerte der von dieser Software gemeldeten Werte (da sie ihre Strafe mit parametrisiert ). $\lambda$ $1/\lambda$

Eine Fehlerkurve mit mehreren lokalen Minima

Analyse

Betrachten wir eine Regularisierungsmethode zum Anpassen der Parameter an die Daten und die entsprechenden Antworten , die diese Eigenschaften aufweisen, die Ridge Regression und Lasso gemeinsam haben: $\beta=(\beta_1, \ldots, \beta_p)$ $x_i$ $y_i$

(Parametrisierung) Die Methode wird durch reelle Zahlen parametrisiert , wobei das unregelmäßige Modell . $\lambda \in [0, \infty)$ $\lambda=0$
(Kontinuität) Die Parameterschätzung hängt kontinuierlich von und die vorhergesagten Werte für alle Features variieren kontinuierlich mit . $\hat\beta$ $\lambda$ $\hat\beta$
(Schrumpfung) Als , . $\lambda\to\infty$ $\hat\beta\to 0$
(Endlichkeit) Für jeden Merkmalsvektor als ist die Vorhersage . $x$ $\hat\beta\to 0$ $\hat y(x) = f(x, \hat\beta) \to 0$
(Monotoner Fehler) Die Fehlerfunktion, die einen beliebigen Wert mit einem vorhergesagten Wert , , nimmt mit der Diskrepanzso dass wir es mit etwas Missbrauch der Notation als ausdrücken können . $y$ $\hat y$ $\mathcal{L}(y, \hat y)$ $|\hat y - y|$ $\mathcal{L}(|\hat y - y|)$

(Null in kann durch eine beliebige Konstante ersetzt werden.) $(4)$

Angenommen, die Daten sind so, dass die anfängliche (unregelmäßige) Parameterschätzung nicht Null ist. Lassen Sie uns einen Trainingsdatensatz konstruieren , der aus einer Beobachtung für die . (Wenn es nicht möglich ist, ein solches zu finden , ist das ursprüngliche Modell nicht sehr interessant!) Setzen Sie . $\hat\beta(0)$ $(x_0, y_0)$ $f(x_0, \hat\beta(0))\ne 0$ $x_0$ $y_0=f(x_0, \hat\beta(0))/2$

Die Annahmen implizieren, dass die Fehlerkurve Eigenschaften hat: $e: \lambda \to \mathcal{L}(y_0, f(x_0, \hat\beta(\lambda))$

$e(0) = \mathcal{L}(y_0, f(x_0, \hat\beta(0)) = \mathcal{L}(y_0, 2y_0) = \mathcal{L}(|y_0|)$ (wegen die Wahl von ). $y_0$
$\lim_{\lambda\to\infty}e(\lambda) = \mathcal{L}(y_0, 0) = \mathcal{L}(|y_0|)$ (weil als , , woher ). $\lambda\to\infty$ $\hat\beta(\lambda)\to 0$ $\hat{y}(x_0)\to 0$

Somit verbindet sein Graph kontinuierlich zwei gleich hohe (und endliche) Endpunkte.

Qualitativ gibt es drei Möglichkeiten:

Die Vorhersage für das Trainingsset ändert sich nie. Dies ist unwahrscheinlich - fast jedes Beispiel, das Sie auswählen, verfügt nicht über diese Eigenschaft.
Einige Zwischenvorhersagen für sind schlechter als zu Beginn oder im Grenzwert . Diese Funktion kann nicht konvex sein. $0\lt \lambda \lt \infty$ $\lambda=0$ $\lambda\to\infty$
Alle Zwischenvorhersagen liegen zwischen und . Die Kontinuität impliziert, dass es mindestens ein Minimum von , in dessen Nähe konvex sein muss. Da sich asymptotisch einer endlichen Konstante nähert , kann es für groß genug nicht konvex sein . $0$ $2y_0$ $e$ $e$ $e(\lambda)$ $\lambda$

Die vertikale gestrichelte Linie in der Abbildung zeigt, wo sich das Diagramm von konvex (links) zu nicht konvex (rechts) ändert. ( In dieser Abbildung gibt es auch einen Bereich der Nichtkonvexität in der Nähe von dies ist jedoch im Allgemeinen nicht unbedingt der Fall.) $\lambda\approx 0$

— whuber
quelle

Vielen Dank für Ihre ausführliche Antwort. Wenn möglich, überprüfen Sie die Frage, während ich Ihre Antwort bearbeitet und aktualisiert habe.

— RF7

Tolle Antwort (+1). In der Praxis gibt es meiner Meinung nach oft nicht so wenige Trainings- und Testdatenpunkte. Ändert sich die Schlussfolgerung dieser Antwort, wenn genügend Trainings- und Testdatenpunkte aus derselben (festen und ausreichend regelmäßigen) Verteilung stammen? Gibt es in diesem Szenario insbesondere ein eindeutiges lokales Minimum mit hoher Wahrscheinlichkeit?

— user795305

@Ben Es kommt nicht auf die Anzahl der Testpunkte an: Dieses Ergebnis hängt vollständig von der Verteilung der Testpunkte im Verhältnis zur Verteilung der Trainingspunkte ab. Daher wird das Problem "mit hoher Wahrscheinlichkeit" nicht beantwortet werden können, ohne einige spezifische Annahmen über die multivariate Verteilung der Regressorvariablen zu treffen. Mit vielen Variablen im Spiel wird dieses Phänomen mehrerer lokaler Minima viel wahrscheinlicher sein. Ich vermute , dass die zufällige Auswahl eines großen Test - Sets (mit oft wie viele Beobachtungen als Variablen) könnten oft eine einzigartige globale min haben.

— whuber

@whuber Danke! Ich stimme zu: Die (wahre) Verteilung zwischen den Trainings- und Testpunkten sollte gleich sein, und es müssen genügend Stichproben vorhanden sein, damit die empirischen Verteilungen des Trainings- und Testsatzes übereinstimmen. (Es scheint, dass ich das in meinem früheren Kommentar schlecht formuliert habe.) Wenn zum Beispiel eine gemeinsame Normalverteilung hat (mit nicht entarteter Kovarianz), vermute ich, dass die Wahrscheinlichkeit, dass die Fehlerkurve eine eindeutige lokale min aufweist, konvergiert 1 (wenn zum Beispiel Proben im Trainings- und Test-Set mit wobei fest ist (oder sogar langsam gegenüber

(x, y)

$(\mathbf x, y)$

n

$n$

n \to \infty

$n \to \infty$

p

$p$

n

$n$

— zunimmt

$\newcommand{\dbeta}{\frac{\partial}{\partial \lambda} \hat\beta_\lambda}$ $\newcommand{\ddbeta}{\frac{\partial^2}{{\partial \lambda}^2} \hat\beta_\lambda}$

Diese Antwort betrifft speziell das Lasso (und gilt nicht für die Gratregression).

Installieren

Angenommen, wir haben Kovariaten, mit denen wir eine Antwort modellieren. Angenommen, wir haben Trainingsdatenpunkte und Validierungsdatenpunkte. $p$ $n$ $m$

Die Trainingseingabe sei und die Antwort sei . Wir werden das Lasso für diese Trainingsdaten verwenden. Das heißt, setzen Sie eine Familie von Koeffizienten, die aus den Trainingsdaten geschätzt werden. Wir werden basierend auf seinem Fehler in einem Validierungssatz mit Eingabe und Antwort auswählen, welches als Schätzer verwendet werden soll . Mit $X_{(1)} \in \mathbb{R}^{n \times p}$ $y_{(1)} \in \mathbb{R}^n$

\begin{matrix} (1) & {\hat{β}}_{λ} = \arg min_{β \in R^{p}} ‖ y_{(1)} - X_{(1)} β ‖_{2}^{2} + λ ‖ β ‖_{1}, \end{matrix}

$\hat\beta_\lambda = \arg\min_{\beta \in \mathbb{R}^p} \|y_{(1)} - X_{(1)} \beta\|_2^2 + \lambda \|\beta\|_1, \tag{1}$

{\hat{β}}_{λ}

$\hat\beta_\lambda$

X_{(2)} \in R^{m \times p}

$X_{(2)} \in \mathbb{R}^{m \times p}$

y_{(2)} \in R^{m}

$y_{(2)} \in \mathbb{R}^m$

\begin{matrix} (2) & \hat{λ} = \arg min_{λ \in R_{+}} ‖ y_{(2)} - X_{(2)} {\hat{β}}_{λ} ‖_{2}^{2}, \end{matrix}

$\hat\lambda = \arg\min_{\lambda \in \mathbb{R}_+} \|y_{(2)} - X_{(2)} \hat\beta_\lambda\|_2^2, \tag{2}$ Wir sind daran interessiert, die Fehlerfunktion zu untersuchen, aus der unser datengesteuerter Schätzer .

e (λ) = ‖ y_{(2)} - X_{(2)} {\hat{β}}_{λ} ‖_{2}^{2}

$e(\lambda) = \|y_{(2)} - X_{(2)} \hat\beta_\lambda\|_2^2$

{\hat{β}}_{\hat{λ}}

$\hat\beta_{\hat\lambda}$

Berechnung

Jetzt werden wir die zweite Ableitung des Objektives in Gleichung berechnen , ohne dass irgendwelche Verteilungsannahmen auf dem ‚s oder ‘ s. Unter Verwendung von Differenzierung und einer gewissen Reorganisation berechnen wir (formal), dass $(2)$ $X$ $y$

\begin{aligned} \frac{\partial^{2}}{{\partial λ}^{2}} ‖ y_{(2)} - X_{(2)} {\hat{β}}_{λ} ‖_{2}^{2} & = \frac{\partial}{\partial λ} {- 2 y_{(2)}^{T} X_{(2)} \frac{\partial}{\partial λ} {\hat{β}}_{λ} + 2 {\hat{β}}_{λ}^{T} X_{(2)}^{T} X_{(2)} \frac{\partial}{\partial λ} {\hat{β}}_{λ}} \\ = - 2 y_{(2)}^{T} X_{(2)} \frac{\partial^{2}}{{\partial λ}^{2}} {\hat{β}}_{λ} + 2 {({\hat{β}}_{λ})}^{T} X_{(2)}^{T} X_{(2)} \frac{\partial^{2}}{{\partial λ}^{2}} {\hat{β}}_{λ} + 2 \frac{\partial}{\partial λ} {\hat{β}}_{λ}^{T} X_{(2)}^{T} X_{(2)}^{T} \frac{\partial}{\partial λ} {\hat{β}}_{λ} \\ = - 2 {{(y_{(2)} - X_{(2)} {\hat{β}}_{λ})}^{T} \frac{\partial^{2}}{{\partial λ}^{2}} {\hat{β}}_{λ} - ‖ X_{(2)} \frac{\partial}{\partial λ} {\hat{β}}_{λ} ‖_{2}^{2}} . \end{aligned}

$\begin{align*} \frac{\partial^2}{{\partial \lambda}^2} \|y_{(2)} - X_{(2)} \hat\beta_\lambda\|_2^2 & = \frac{\partial}{\partial \lambda} \left\{ -2 y_{(2)}^T X_{(2)} \dbeta + 2 \hat\beta_\lambda^T X_{(2)}^T X_{(2)} \dbeta \right\} \\ & = -2 y_{(2)}^T X_{(2)} \ddbeta + 2 \left( \hat\beta_\lambda \right)^T X_{(2)}^T X_{(2)} \ddbeta + 2 \dbeta^T X_{(2)}^T X_{(2)}^T \dbeta \\ & = -2 \left\{ \left( y_{(2)} - X_{(2)} \hat\beta_\lambda \right)^T \ddbeta - \|X_{(2)} \dbeta\|_2^2 \right\}. \end{align*}$ Da für stückweise linear ist (wobei die endliche Menge von Knoten im Lasso-Lösungspfad ist), ist die Ableitung stückweise konstant und ist für alle Null . Daher ist eine nicht negative Funktion von .

{\hat{β}}_{λ}

$\hat\beta_\lambda$

λ \notin K

$\lambda \not\in K$

K

$K$

\frac{\partial}{\partial λ} {\hat{β}}_{λ}

$\dbeta$

\frac{\partial^{2}}{{\partial λ}^{2}} {\hat{β}}_{λ}

$\ddbeta$

λ \notin K

$\lambda \not\in K$

\frac{\partial^{2}}{{\partial λ}^{2}} ‖ y_{(2)} - X_{(2)} {\hat{β}}_{λ} ‖_{2}^{2} = 2 ‖ X_{(2)} \frac{\partial}{\partial λ} {\hat{β}}_{λ} ‖_{2}^{2},

$\frac{\partial^2}{{\partial \lambda}^2} \|y_{(2)} - X_{(2)} \hat\beta_\lambda\|_2^2 = 2 \|X_{(2)} \dbeta\|_2^2,$

λ

$\lambda$

Fazit

Wenn wir weiter annehmen, dass aus einer kontinuierlichen Verteilung unabhängig von , ist der Vektor fast sicher für . Daher hat die Fehlerfunktion eine zweite Ableitung von die (fast sicher) streng positiv ist. wir jedoch wissen, dass stetig ist, wissen wir, dass der Validierungsfehler stetig ist. $X_{(2)}$ $\{X_{(1)}, y_{(1)} \}$ $X_{(2)} \dbeta \neq 0$ $\lambda < \lambda_\max$ $e(\lambda)$ $\mathbb{R} \setminus K$ $\hat\beta_\lambda$ $e(\lambda)$

Schließlich wissen wir aus dem Lasso Dual, dass monoton abnimmt, wenn zunimmt. Wenn wir feststellen können, dass ebenfalls monoton ist, folgt die starke Konvexität von . Dies gilt jedoch mit einer Wahrscheinlichkeit, die sich einer nähert, wenn . (Ich werde hier bald Details eintragen.) $\|X_{(1)} \hat\beta_\lambda\|_2^2$ $\lambda$ $\|X_{(2)} \hat\beta_\lambda\|_2^2$ $e(\lambda)$ $\mathcal{L} \left( X_{(1)} \right) = \mathcal{L} \left( X_{(2)} \right)$

— user795305
quelle

Sie verlassen sich nur darauf, dass eine kontinuierliche stückweise lineare Funktion von zu folgern, dass streng konvex ist. Mal sehen, ob dieser Abzug allgemein gültig ist. Eine solche Funktion ist(wobei das Runden auf die nächste ganze Zahl bedeutet). Angenommen, und , so dass . Diese Fehlerfunktion hat unendlich viele lokale Minima. Es ist nicht konvex - es ist nur überall konvex, außer an isolierten Stellen! Das lässt mich glauben, dass Sie zusätzliche unausgesprochene Annahmen treffen.

\hat{β}

$\hat\beta$

λ

$\lambda$

\hat{e}

$\hat e$

\hat{β} (λ) = | λ - [λ] |

$\hat\beta(\lambda)=|\lambda-[\lambda]|$

[]

$[]$

y_{(2)} = 0

$y_{(2)}=0$

X_{(2)} = 1

$X_{(2)}=1$

\hat{e} (λ) = \hat{β} (λ)^{2}

$\hat {e}(\lambda)=\hat\beta(\lambda)^2$

— whuber

@whuber Guter Punkt! Vielen Dank! Ich werde diesen Beitrag bald weiter bearbeiten.

— user795305