Wird die elastische Netz-Regularisierung immer Lasso & Ridge vorgezogen, da sie die Nachteile dieser Methoden zu beseitigen scheint? Was ist die Intuition und was ist die Mathematik hinter dem elastischen Netz?
Wird die elastische Netz-Regularisierung immer Lasso & Ridge vorgezogen, da sie die Nachteile dieser Methoden zu beseitigen scheint? Was ist die Intuition und was ist die Mathematik hinter dem elastischen Netz?
Antworten:
Ja, elastische Netze werden immer der Lasso-Ridge-Regression vorgezogen, da sie die Einschränkungen beider Methoden aufheben und sie jeweils als Sonderfälle einbeziehen. Wenn also die Kamm- oder Lassolösung in der Tat die beste ist, identifiziert jede gute Modellauswahlroutine dies als Teil des Modellierungsprozesses.
Kommentare zu meinem Beitrag haben darauf hingewiesen, dass die Vorteile des elastischen Netzes nicht uneingeschränkt bestehen. Ich bin weiterhin der Überzeugung, dass die Allgemeinheit der elastischen Netzregression entweder der oder der Regularisierung für sich allein vorzuziehen ist . Insbesondere denke ich, dass die Streitpunkte zwischen mir und anderen direkt mit den Annahmen zusammenhängen, die wir bezüglich des Modellierungsprozesses treffen möchten. Bei ausreichendem Wissen über die zugrunde liegenden Daten werden einige Methoden anderen vorgezogen. Meine Vorliebe für elastisches Netz ist jedoch in meiner Skepsis begründet, dass man sicher wissen wird, dass oder das wahre Modell ist.
Dies ist etwas kreisförmig. Verzeihen Sie mir, wenn dies etwas unangenehm ist, aber wenn Sie wissen, dass LASSO (Grat) die beste Lösung ist, werden Sie sich nicht fragen, wie Sie es angemessen modellieren sollen. Sie passen nur ein LASSO (Ridge) Modell. Wenn Sie absolut sicher sind, dass die richtige Antwort die LASSO-Regression ist, dann sind Sie davon überzeugt, dass es keinen Grund gibt, Zeit mit dem Anbringen eines elastischen Netzes zu verschwenden. Wenn Sie jedoch etwas weniger sicher sind, ob LASSO (First) die richtige Vorgehensweise ist, ist es meines Erachtens sinnvoll, ein flexibleres Modell einzuschätzen und zu bewerten, wie stark die Daten die vorherige Annahme stützen.
Dies gilt auch, aber ich denke, es ist aus einem ähnlichen Grund zirkulär: Wenn Sie eine optimale Lösung geschätzt haben und dann ist dies das Modell, das die Daten unterstützen. Einerseits ist Ihr geschätztes Modell nicht das wahre Modell, aber ich muss mich fragen, wie man vor jeder Modellschätzung wissen kann, dass das wahre Modell (oder ) ist. Es mag Bereiche geben, in denen Sie über solche Vorkenntnisse verfügen, aber meine berufliche Tätigkeit gehört nicht dazu.
Dies ist nur relevant, wenn Sie zeitliche oder computergestützte Einschränkungen haben. sonst ist es nur ein Ärgernis. GLMNET ist der Goldstandard-Algorithmus zur Schätzung elastischer Netzlösungen. Der Benutzer gibt einen Alpha-Wert an und verwendet die Pfadeigenschaften der Regularisierungslösung, um schnell eine Modellfamilie für eine Vielzahl von Werten der Bestrafungsgröße schätzen. Oft kann er diese Lösungsfamilie schneller schätzen als schätzen Nur eine Lösung für einen bestimmten Wert . Ja, mit GLMNET sind Sie in der Lage, Methoden im Grid-Stil zu verwenden (durchlaufen Sie einige Werte von und lassen Sie GLMNET eine Vielzahl von s ausprobieren ), aber es ist ziemlich schnell.
Dies ist wahr, aber wenn man überlegt, welche Methode man anwenden soll, wird man nicht wissen, welches elastische Netz, Kamm oder LASSO das beste ist. Wenn einer der Gründe dafür ist, dass die beste Lösung LASSO oder eine Kammregression sein muss, fallen wir in den Bereich von Claim (1). Wenn wir uns immer noch nicht sicher sind, welche Lösung die beste ist, können wir LASSO-, First- und elastische Netzlösungen testen und zu diesem Zeitpunkt die Wahl eines endgültigen Modells treffen (oder, wenn Sie Akademiker sind, schreiben Sie einfach Ihre Arbeit über alle drei ). Diese Situation der vorherigen Unsicherheit versetzt uns entweder in den Bereich von Anspruch (2), in dem das wahre Modell LASSO / Ridge ist, wir es aber nicht im Voraus wussten, und wir wählen versehentlich das falsche Modell aufgrund von schlecht identifizierten Hyperparametern aus, oder elastisches Netz ist eigentlich die beste Lösung.
Die ordnungsgemäße Modellvalidierung ist ein wesentlicher Bestandteil jedes maschinell lernenden Unternehmens. Die Modellvalidierung ist in der Regel ebenfalls ein teurer Schritt. Daher sollte hier versucht werden, Ineffizienzen auf ein Mindestmaß zu beschränken. Wenn eine dieser Ineffizienzen es unnötig macht, Werte zu testen, von denen bekannt ist, dass sie vergeblich sind, kann dies ein Vorschlag sein. Ja, machen Sie das auf jeden Fall, wenn Sie mit der starken Aussage, die Sie über die Anordnung Ihrer Daten treffen, einverstanden sind - aber wir kehren zurück in das Gebiet von Claim (1) und Claim (2).
Ich empfehle dringend, die Literatur zu diesen Methoden zu lesen, beginnend mit dem Originalpapier auf dem elastischen Netz. Die Arbeit entwickelt die Intuition und die Mathematik und ist gut lesbar. Eine Reproduktion hier wäre nur zum Nachteil der Autorenerklärung. Die Zusammenfassung auf hoher Ebene lautet jedoch, dass das elastische Netz eine konvexe Summe von Ridge- und Lasso-Strafen ist, sodass die Zielfunktion für ein Gaußsches Fehlermodell wie folgt aussieht:
für
Hui Zou und Trevor Hastie. " Regularisierung und variable Auswahl über das elastische Netz ." JR Statistic. Soc., Bd. 67 (2005), Teil 2., S. 301-320.
Richard Hardy weist darauf hin, dass dies bei Hastie et al. "Die Elemente des statistischen Lernens" Kapitel 3 und 18.
Dies ist eine Frage, die mir in den Kommentaren gestellt wurde:
Lassen Sie mich ein weiteres Argument gegen Ihren Standpunkt vorschlagen, dass elastisches Netz einheitlich besser ist als Lasso oder Kamm allein. Stellen Sie sich vor, wir fügen der elastischen Nettokostenfunktion eine weitere Strafe hinzu, z. B. Kosten, mit einem Hyperparameter . Ich glaube, es gibt nicht viel Forschung darüber, aber ich wette, dass Sie, wenn Sie eine Kreuzvalidierungssuche in einem 3D-Parameterraster durchführen, als optimalen Wert erhalten. Wenn ja, würden Sie dann argumentieren, dass es immer eine gute Idee ist, auch die Kosten für einzubeziehen.
Ich weiß es zu schätzen, dass der Sinn der Frage lautet: "Wenn es so ist, wie Sie es behaupten, und zwei Strafen gut sind, warum nicht noch eine hinzufügen?" Aber ich denke, die Antwort liegt darin, warum wir überhaupt regulieren.
Regularisierung führt in der Regel zu spärlichen Lösungen, wählt jedoch auch das Merkmal aus, das am stärksten mit dem Ergebnis korreliert, und stellt den Rest auf Null. Außerdem kann er in einem Datensatz mit Beobachtungen höchstens Merkmale auswählen . Regularisierung ist geeignet, um schlecht gestellte Probleme zu lösen, die sich aus stark (oder perfekt) korrelierten Merkmalen ergeben. In einem Datensatz mit Merkmalen kann die Regularisierung verwendet werden, um ein Modell im Fall eindeutig zu identifizieren .
Abgesehen von diesen beiden Problemen kann das regularisierte Modell das ML-Modell immer noch übertreffen, da die Schrumpfeigenschaften der Schätzer "pessimistisch" sind und die Koeffizienten gegen 0 ziehen.
Die statistischen Eigenschaften der Regularisierung sind mir jedoch nicht bekannt . Bei den Problemen, an denen ich gearbeitet habe, stehen wir im Allgemeinen vor beiden Problemen: der Einbeziehung von schlecht korrelierten Merkmalen (Hypothesen, die von den Daten nicht bestätigt werden) und kolinearen Merkmalen.
Tatsächlich gibt es zwingende Gründe dafür, dass und Strafen für Parameter die einzigen sind, die typischerweise verwendet werden.
In Warum sehen wir nur die Regularisierung von und aber keine anderen Normen? @whuber bietet diesen Kommentar an:
Ich habe diese Frage nicht speziell untersucht, aber die Erfahrung mit ähnlichen Situationen legt nahe, dass es eine gute qualitative Antwort geben kann: Alle Normen, die am Ursprung als zweite differenzierbar sind, sind lokal äquivalent zueinander, wobei die Norm der Standard ist . Alle anderen Normen sind am Ursprung nicht unterscheidbar und reproduziert qualitativ ihr Verhalten. Das deckt die Skala ab. Tatsächlich nähert eine lineare Kombination einer und Norm jede Norm der zweiten Ordnung am Ursprung an - und dies ist das Wichtigste bei der Regression ohne abgelegene Residuen.
Auf diese Weise können wir den Bereich von Optionen effektiv abdecken, die möglicherweise durch Normen als Kombinationen von und Normen bereitgestellt werden könnten - und das alles, ohne dass eine zusätzliche Anpassung der Hyperparameter erforderlich ist.
Ich stimme im Allgemeinen der Antwort von @Sycorax zu, möchte aber eine Qualifikation hinzufügen.
Zu sagen, dass "elastisches Netz immer der Lasso & Ridge-Regression vorgezogen wird", mag etwas zu stark sein. Bei kleinen oder mittleren Proben kann es sein, dass das elastische Netz kein reines LASSO oder keine reine Kammlösung auswählt, selbst wenn das erstere oder das letztere tatsächlich das relevante ist. Bei guten Vorkenntnissen kann es sinnvoll sein, anstelle des elastischen Netzes LASSO oder Ridge zu wählen. Mangels Vorkenntnissen sollte jedoch das elastische Netz die bevorzugte Lösung sein.
Außerdem ist das elastische Netz rechenintensiver als LASSO oder Ridge, da das relative Gewicht von LASSO gegenüber Ridge mithilfe einer Kreuzvalidierung ausgewählt werden muss. Wenn ein vernünftiges Raster von Alpha-Werten [0,1] mit einer Schrittgröße von 0,1 ist, bedeutet dies, dass das elastische Netz ungefähr 11-mal so rechenaufwendig ist wie LASSO oder Ridge. (Da LASSO und Ridge nicht den gleichen Rechenaufwand haben, ist das Ergebnis nur eine grobe Schätzung.)