Elastic / Ridge / Lasso-Analyse, was dann?

19

Ich interessiere mich sehr für das elastische Netzverfahren für das Schrumpfen / Selektieren des Prädiktors. Es scheint sehr mächtig zu sein.

Aber aus wissenschaftlicher Sicht weiß ich nicht genau, was ich tun soll, wenn ich die Koeffizienten habe. Welche Frage beantworte ich? Dies sind die Variablen, die das Ergebnis am meisten beeinflussen, und dies sind die Koeffizienten, die während der Validierung das beste Varianz / Bias-Verhältnis ergeben.

Dies ist natürlich ein sehr deskriptiver / prädiktiver Ansatz im Vergleich zum klassischen p-Wert / Konfidenzintervall-Ansatz. Die Inferenzschätzung wird derzeit von Tibshirani & Co. untersucht, ist jedoch noch experimentell.

Einige Leute verwenden die vom elastischen Netz gewählten Variablen, um eine klassische Inferenzanalyse durchzuführen, aber dies würde die durch die Technik verursachte Einschränkung der Varianz beseitigen.

Ein weiteres Problem besteht darin, dass Lambda- und Alpha-Parameter für das elastische Netz durch Kreuzvalidierung ausgewählt werden und zufälligen Schwankungen unterliegen. Jedes Mal, wenn Sie (z. B.) cv.glmnet () ausführen, wählen Sie eine geringfügig andere Teilmenge von Prädiktoren mit immer unterschiedlichen Koeffizienten aus.

Ich denke darüber nach, dies zu lösen, indem ich das richtige Lambda und Alpha als Zufallsvariablen berücksichtige und den Kreuzvalidierungsschritt n-mal erneut durchführe, um eine Verteilung dieser Parameter zu erhalten. Auf diese Weise hätte ich für jeden Prädiktor die Anzahl der Vorkommen und für jeden Koeffizienten die Verteilung der Ergebnisse. Dies sollte zu verallgemeinerbaren Ergebnissen mit Bereichsstatistiken führen (wie z. B. sd der Koeffizienten). Es wäre auch interessant zu sehen, ob sich Lambda und Alpha auf diese Weise einer asymptotischen Verteilung annähern, da dies den Weg für einen Inferenztest ebnen würde (aber ich bin kein Statistiker, also sollte ich nicht über Dinge sprechen, die ich nicht tue verstehe nicht ganz).

Meine Frage zum Schluss lautet also: Wenn Sie die Prädiktoren und die Koeffizienten aus einem elastischen Netz mit auf Kreuzvalidierung basierenden Alpha und Lambda erhalten, welche und wie sollten Sie diese Ergebnisse präsentieren? Wie solltest du sie besprechen? was haben wir gelernt Welche Hypothese / Verallgemeinerung bestreiten wir?

— Bakaburg
quelle

Ich denke, das ist zu weit gefasst / unklar, um angemessen zu antworten. In einigen Fällen finde ich Ihre Aussagen unklar (z. B. was meinen Sie mit " aber das würde die durch die Technik hervorgerufene Einschränkung der Varianz beseitigen ") und in einigen anderen Fällen irregeführt (z. B. " jedes Mal, wenn Sie rennen (z. B.) cv.glmnet () Sie werden eine etwas andere Teilmenge von Prädiktoren mit immer unterschiedlichen Koeffizienten auswählen "- das ist nicht jedes Mal der Fall und selbst wenn es passiert, ist es normalerweise nicht katastrophal, wenn der Lebenslauf korrekt durchgeführt wurde.)

— usεr11852 sagt Reinstate Monic

Eine Motivation, die ich für das elastische Netz gesehen habe, bezog sich auf die variable Anhäufung (durch Abschnitt 2.3 des zou, hastie elastischen Netzpapiers), auf die hier (durch eine etwas andere Methode) näher eingegangen wird

— user795305

8

Diese Methoden - das Lasso und das elastische Netz - sind aus den Problemen der Merkmalsauswahl und -vorhersage entstanden. Ich denke, durch diese beiden Linsen kann eine Erklärung gefunden werden.

Matthew Gunn erklärt in seiner Antwort freundlich, dass diese beiden Ziele unterschiedlich sind und oft von verschiedenen Personen aufgegriffen werden. Glücklicherweise können die Methoden, an denen wir interessiert sind, in beiden Bereichen gute Ergebnisse erzielen.

Merkmalsauswahl

Lassen Sie uns zunächst über die Funktionsauswahl sprechen. Wir sollten zuerst das elastische Netz aus der Perspektive des Lassos motivieren. Das heißt, um Hastie und Zou zu zitieren : "Wenn es eine Gruppe von Variablen gibt, unter denen die paarweisen Korrelationen sehr hoch sind, dann neigt das Lasso dazu, nur eine Variable aus der Gruppe auszuwählen, und es ist egal, welche ausgewählt wird." Dies ist zum Beispiel ein Problem, weil es bedeutet, dass wir mit dem Lasso wahrscheinlich kein Element der wahren Unterstützung finden - nur eines, das in hohem Maße damit korreliert. (Das Papier erwähnt, dass dies im LARS-Papier bewiesen ist, das ich noch nicht gelesen habe.) Auf die Schwierigkeit der Wiederherstellung der Unterstützung bei vorhandener Korrelation wird auch von Wainwright hingewiesen . wenn es eine hohe Korrelation zwischen der wahren Unterstützung und ihrer Ergänzung gibt. $0.5$

Nun ermutigt die l2-Strafe im elastischen Netz Merkmale, deren Koeffizienten nur durch den Verlust als nicht unterscheidbar behandelt werden, und die l1-Strafe, den gleichen geschätzten Koeffizienten zu haben. Wir können dies leicht erkennen, indem wir feststellen, dass erfüllt $(a,b) = \arg\min_{a',b': c = |a'| + |b'|} (a')^2 + (b')^2$ . Aufgrund dessen bewirkt das elastische Netz, dass es weniger wahrscheinlich ist, dass wir "versehentlich" eine Koeffizientenschätzung verschwinden lassen, die in der wahren Unterstützung liegt. Das heißt, die tatsächliche Unterstützung ist eher in der geschätzten Unterstützung enthalten. Das ist gut! Es bedeutet zwar, dass es mehr falsche Entdeckungen gibt, aber das ist ein Preis, den die meisten Menschen zu zahlen bereit sind. $|a| = |b|$

Im Übrigen ist darauf hinzuweisen, dass stark korrelierte Merkmale dazu neigen, sehr ähnliche Koeffizientenschätzungen zu haben, sodass wir Gruppierungen von Merkmalen innerhalb der geschätzten Unterstützung erkennen können, die die Antwort in ähnlicher Weise beeinflussen.

Prognose

$\alpha = 1$

Lederer, Yu und Gaynanova zeigen unter keinen Umständen , dass sowohl für das Lasso als auch für das elastische Netz der Vorhersagefehler von l2 durch dieselbe Größe begrenzt sein kann. Es ist nicht unbedingt wahr, dass ihre Schranke eng ist, aber es könnte interessant sein, darauf hinzuweisen, dass Orakel-Ungleichungen in der statistischen Literatur ein Standardverfahren zur Quantifizierung der Vorhersageleistung von Schätzern zu sein scheinen - vielleicht, weil die Verteilungen so kompliziert sind! Es ist auch erwähnenswert, dass Lederer (1) (2) einige Artikel über Lasso-Vorhersagen in Gegenwart korrelierter Merkmale hat.

Zusammenfassung

Zusammenfassend sind die Probleme von Interesse, dass die tatsächliche Unterstützung innerhalb der geschätzten Unterstützung und Vorhersage liegt. Für die Wiederherstellung des Supports gibt es streng nachgewiesene Garantien (durch Wainwright), dass das Lasso die richtigen Merkmale für das Modell auswählt, unter der Annahme einer geringen Korrelation zwischen dem tatsächlichen Support und seiner Ergänzung. Bei Vorhandensein einer Korrelation können wir jedoch auf das elastische Netz zurückgreifen, um wahrscheinlicher zu sein, dass die Merkmale in der wahren Unterstützung zu den von ihm ausgewählten gehören. (Beachten Sie, dass wir hier die Abstimmungsparameter sorgfältig auswählen müssen.) Zur Vorhersage, wenn wir die Abstimmungsparameter durch Kreuzvalidierung auswählen, ist es intuitiv sinnvoll, dass das elastische Netz eine bessere Leistung als das Lasso aufweist - insbesondere bei vorhandener Korrelation .

Abgesehen von Vorhersagen und Formalitäten, was haben wir gelernt? Wir haben von der wahren Unterstützung erfahren.

Vertrauensintervalle

Es ist darauf hinzuweisen, dass sich in den letzten 2 Jahren eine Menge an gültigen Schlussfolgerungen für das Lasso geändert hat. Insbesondere liefert die Arbeit von Lee, Sun, Sun und Taylor einen genauen Rückschluss auf die Koeffizienten des Lassos, der von dem gewählten Modell abhängig ist. (Die Ergebnisse zur Inferenz in Lasso für die wahren Koeffizienten lagen zum Zeitpunkt der Veröffentlichung von OP vor, und sie sind in der verlinkten Veröffentlichung gut zusammengefasst.)

— user795305
quelle

Wäre es richtig anzunehmen, dass die Schätzungen der regulierten Kovariaten wahrscheinlich denen ähnlicher sind, bei denen sich eine Studie wiederholen könnte? Das heißt, da die Regularisierung dazu beiträgt, den Vorhersagefehler außerhalb der Stichprobe zu minimieren, könnte dies dazu beitragen, den Unterschied zwischen der Stichprobe und der Schätzung außerhalb der Stichprobe zu minimieren.

— Bakaburg

1

@ Bakaburg, ja, das macht Sinn zu sagen. Die Regularisierung erzeugt Schätzer mit geringerer Varianz.

— user795305

9

Was Sie mit Elastic, Ridge oder Lasso tun, indem Sie mithilfe der Kreuzvalidierung Regularisierungsparameter auswählen, ist die Anpassung einer linearen Form, um die Vorhersage zu optimieren . Warum diese bestimmten Regularisierungsparameter? Weil sie am besten für die Vorhersage neuer Daten geeignet sind. Wenn der geschätzte Schrumpfungskoeffizient gegen Null geht und eine Vorspannung eingeführt wird (wie dies bei Ridge oder Lasso der Fall ist), können Überanpassung und Schrumpfungsvarianz verringert werden . Die Idee ist, dass Ihre Strafparameter das richtige Gleichgewicht finden, um die Vorhersage für neue Daten zu optimieren.

Stellen Sie sich vor, der Datenerzeugungsprozess ist:

y_{ich} = f (x_{ich}, β) + ϵ_{ich}

$y_i = f(\mathbf{x}_i, \beta) + \epsilon_i$

$\hat{\beta}$ $\beta$ $\hat{y}_j$ $j$

Wie sollen Sie Ihre Ergebnisse präsentieren? Es kommt darauf an, was Ihre Forschungsfrage ist! Vielleicht möchten Sie einen Schritt zurücktreten und sich gründlich überlegen, welche Frage Sie beantworten möchten . Was interessiert Ihr Publikum? Was versuchst du zu machen?

Prognose?
Koeffizienten schätzen?
Variablenauswahl?

Es ist wichtig, zwischen zwei Arten von Forschungsfragen zu unterscheiden:

$\hat{y}_j$
$\hat{\beta}$

$\hat{y}$ $\hat{\beta}$

$\hat{y}$ $k$ $n$
Algorithmen, die auf verschiedenen Faltungen trainiert wurden, können signifikant unterschiedliche Parameterschätzungen aufweisen.
Der Schwerpunkt beim maschinellen Lernen liegt auf der Vorhersage und nicht auf der konsequenten Abschätzung der kausalen Effekte. (Dies steht im Gegensatz zur Ökonometrie, bei der es in der Regel darum geht, die kausalen Auswirkungen konsequent abzuschätzen.) Die Vorhersage, eine funktionale Form zu schätzen, unterscheidet sich von der Kausalitätsschätzung. Die Polizeiebenen sind möglicherweise ein guter Indikator für die Kriminalität, und dies bedeutet nicht, dass die Polizei Kriminalität verursacht.

Und wie Sie erkennen, kann es Probleme bei der Interpretation geben, warum einige Parameter für maschinelles Lernen funktionieren. Ist Ihr Publikum mit einer Vorhersage-Blackbox zufrieden? Oder ist , wie Vorhersage auf Ihre Frage zentralen funktioniert?

Lasso und Ridge: klassische Gründe, sie zu benutzen

$\hat{y}$
Sie können die Regularisierung verwenden, um eine Überanpassung zu verhindern. Z.B. Die Gratregression im Kontext der Polynomkurvenanpassung kann recht gut funktionieren.
Wie @Benjamin in seiner Antwort betont, kann Lasso auch zur Variablenauswahl verwendet werden. Unter bestimmten Regularitätsbedingungen wählt Lasso konsequent das entsprechende Modell aus: irrelevante Koeffizienten werden auf Null gesetzt.

$L_1$ $L_2$

Ich komme immer wieder darauf zurück, dass es ziemlich schwierig ist, die Ergebnisse der Ridge-Regression, des Lasso oder des elastischen Netzes zu interpretieren, ohne den Kontext zu kennen, den Sie herausfinden möchten!

Prof. Sendhil Mullainathan hielt auf der AFA-Sitzung im Januar 2017 einen Vortrag über maschinelles Lernen, der Teile dieses Beitrags motivierte.

— Matthew Gunn
quelle

3

Diese Art des Denkens ist meiner Meinung nach fehlerhaft. Es basiert auf der Annahme, dass das zugrunde liegende Phänomen einfach genug ist, um von einem Menschen verstanden zu werden. Hochdimensionale Modelle sind die meiste Zeit zu komplex, um von Menschen verstanden zu werden, aber sie eignen sich sehr gut für künstliche Intelligenz in großem Maßstab. In Wirklichkeit ist der beste Prädiktor die beste Interpretation des Phänomens, unabhängig davon, ob Sie es nachvollziehen können oder nicht.

— Cagdas Ozgenc

2

@CagdasOzgenc Ich denke, das ist ein berechtigter Punkt, dass einige Funktionen hässlich komplex, für den Menschen schwer zu beschreiben, aber für Maschinen verständlich und lernbar sind (z. B. Schachbrettbewertung). In solchen Situationen ist es möglicherweise besser, die Hände hochzuwerfen und nicht einmal zu versuchen, das zu interpretieren, was die Maschine gelernt hat. Andererseits gibt es Situationen wie Arzneimittelstudien, in denen es einen kausalen Effekt gibt, eine durchschnittliche Wirksamkeit, die Sie bei einer Vielzahl von Störfaktoren, Auswahleffekten usw. abschätzen möchten. Dies sind in gewisser Hinsicht unterschiedliche Probleme und Bedürfnisse verschiedene Techniken.

— Matthew Gunn

1

@Benjamin Ein zugrunde liegendes Problem ist, dass das, wonach das OP am direktesten fragt, eine verständliche Interpretation der in Richtung Null voreingenommenen Koeffizienten aus dem elastischen Netz möglicherweise nicht existiert. Stellen Sie sich vor, Sie haben 10.000 Prädiktoren und 5.000 Beobachtungen. Zusammen können Ihre Koeffizienten eine hervorragende Arbeit bei der Vorhersage leisten, aber für sich genommen kann jeder Koeffizient schlecht geschätzt werden. Ich denke, es lohnt sich, einen Schritt zurückzutreten und sich zu fragen, was die zugrunde liegende Forschungsfrage ist. Was ist das Ziel? Findet es Vorhersagen?

\hat{y}

$\hat{y}$ oder einen Koeffizienten schätzen? Oder vielleicht noch etwas?

— Matthew Gunn