Was sind die Vorteile einer schrittweisen Regression?

11

Ich experimentiere mit schrittweiser Regression, um die Vielfalt meiner Herangehensweise an das Problem zu verbessern. Ich habe also 2 Fragen:

Was sind die Vorteile einer schrittweisen Regression? Was sind ihre spezifischen Stärken?
Was halten Sie vom hybriden Ansatz, bei dem Sie schrittweise Regression verwenden, um Features auszuwählen, und dann eine regelmäßige Regression anwenden, bei der alle ausgewählten Features zusammengenommen werden?

regression feature-selection stepwise-regression

— Baron Jugovich
quelle

15

Der Hauptvorteil der schrittweisen Regression besteht darin, dass sie rechnerisch effizient ist. Die Leistung ist jedoch im Allgemeinen schlechter als bei alternativen Methoden. Das Problem ist, dass es zu gierig ist. Indem beim nächsten Regressor eine harte Auswahl getroffen und das Gewicht "eingefroren" wird, werden Entscheidungen getroffen, die bei jedem Schritt lokal optimal, im Allgemeinen jedoch suboptimal sind. Und es kann nicht zurückgehen, um seine früheren Entscheidungen zu revidieren.

Soweit mir bekannt ist, ist die schrittweise Regression im Vergleich zur regulierten Regression (LASSO), die tendenziell bessere Lösungen liefert, im Allgemeinen in Ungnade gefallen . $l_1$

Tibshirani (1996) . Regressionsschrumpfung und Selektion über das Lasso

LASSO bestraft die -Norm der Gewichte, was zu einer Sparsamkeit in der Lösung führt (viele Gewichte werden auf Null gesetzt). Dies führt eine Variablenauswahl durch (die 'relevanten' Variablen dürfen Gewichte ungleich Null haben). Der Grad der Sparsamkeit wird durch den Strafbegriff gesteuert, und es muss ein Verfahren angewendet werden, um ihn auszuwählen (Kreuzvalidierung ist eine häufige Wahl). LASSO ist rechenintensiver als die schrittweise Regression, es gibt jedoch eine Reihe effizienter Algorithmen. Einige Beispiele sind die kleinste Winkelregression ( LARS ) und ein Ansatz, der auf dem Koordinatenabstieg basiert . $l_1$

Ein ähnlicher Ansatz wie in (2) vorgeschlagen wird als orthogonale Matching-Verfolgung bezeichnet. Es ist eine Verallgemeinerung des Matching-Strebens, was der Name für schrittweise Regression in der Literatur zur Signalverarbeitung ist.

Pati et al. (1993) . Orthogonales Matching-Streben: rekursive Funktionsnäherung mit Anwendungen zur Wavelet-Zerlegung

Bei jeder Iteration wird der nächstbeste Regressor zum aktiven Satz hinzugefügt. Dann werden die Gewichte für alle Regressoren in der aktiven Menge neu berechnet. Aufgrund des Neugewichtungsschritts ist dieser Ansatz weniger gierig (und hat eine bessere Leistung) als das reguläre Matching-Streben / die schrittweise Regression. Es wird jedoch immer noch eine gierige Suchheuristik verwendet.

Alle diese Ansätze (schrittweise Regression, LASSO und orthogonale Matching-Verfolgung) können als Annäherungen an das folgende Problem angesehen werden:

min_{w} ‖ y - X w ‖_{2}^{2} s.t. ‖ w ‖_{0} \leq c

$\underset{w}{\min} \| y - X w \|_2^2 \quad \text{s.t. } \|w\|_0 \le c$

In einem Regressionskontext entsprechen die Spalten von den unabhängigen Variablen und der abhängigen Variablen. Bei der Signalverarbeitung entsprechen die Spalten von Basisfunktionen und ist ein zu approximierendes Signal. Das Ziel ist es, einen spärlichen Satz von Gewichten , die die beste Annäherung (kleinste Quadrate) von . Die Norm zählt einfach die Anzahl der Einträge ungleich Null in . Leider ist dieses Problem NP-schwer, so dass in der Praxis Approximationsalgorithmen verwendet werden müssen. Schrittweise Regression und orthogonale Matching-Verfolgung versuchen, das Problem mithilfe einer gierigen Suchstrategie zu lösen. LASSO formuliert das Problem mit einer Entspannung der $X$ $y$ $X$ $y$ $w$ $y$ $l_0$ $w$ $l_0$ Norm zur Norm. Hier wird das Optimierungsproblem konvex (und damit nachvollziehbar). Und obwohl das Problem nicht mehr identisch ist, ist die Lösung ähnlich. Wenn ich mich richtig erinnere, hat sich gezeigt, dass sowohl LASSO als auch orthogonale Matching-Verfolgung unter bestimmten Bedingungen die genaue Lösung wiederherstellen. $l_1$

— user20160
quelle

8

Eine schrittweise Auswahl ist im Allgemeinen keine gute Idee. Um zu verstehen, warum, kann es Ihnen helfen, meine Antwort hier zu lesen: Algorithmen für die automatische Modellauswahl .

In Bezug auf die Vorteile war die schrittweise Auswahl in den Tagen, in denen das Durchsuchen aller möglichen Funktionskombinationen für Computer zu rechenintensiv war, zeitsparend und nachvollziehbar. Beachten Sie jedoch, dass die in meiner obigen verknüpften Antwort behandelten Probleme genauso für die Regression der besten Teilmenge gelten, sodass schrittweise keine gute, sondern nur eine schlechte Lösung schneller erzielt wird.

Ihre Idee eines hybriden Ansatzes wäre in Ordnung, solange das zweite Modell (mit den ausgewählten Merkmalen) in einen neuen Datensatz eingepasst wurde .

— gung - Monica wieder einsetzen
quelle

In Bezug auf das, was das OP als "hybriden Ansatz" bezeichnet (nicht ganz sicher, warum es hybride ist), meinen Sie, dass es in dem Sinne in Ordnung ist, dass die Schätzungen der Koeffizienten des Modells für die zweiten neuen Datensätze in Ordnung sein sollten (während sie voreingenommen und problematisch sind) Originaldaten), solange der neue Datensatz groß genug ist? Es wäre natürlich möglicherweise ein schlechtes Modell, da es im ersten Datensatz schlecht ausgewählt wurde. Die Koeffizienten würden einfach in einem weniger problematischen Datensatz geschätzt.

— Björn

Außerdem ist es immer noch oft unmöglich, alle möglichen Kombinationen durchzusehen, da die Anzahl der verschiedenen Variablen, über die wir Daten haben, noch schneller wächst als die Rechenleistung, und die Menschen immer mehr Ideen haben, was sie in ihre Modelle aufnehmen sollen.

— Stephan Kolassa

Das Lesen dieses Threads ist weiterhin nicht hilfreich.

— Mox

2

Ich habe gerade eine Google-Suche nach Stepwise Regression durchgeführt. Ich bin mir nicht sicher, ob ich es vollständig verstehe, aber hier ist mein erster Gedanke

Es ist gierig, so dass es nicht die gute Lösung produzieren kann, wie es Lasso tut. Ich bevorzuge Lasso
Es ist einfach, leicht zu bedienen, leicht zu codieren
Nachdem Sie die schrittweise Regression verwendet haben, erhalten Sie bereits ein trainiertes Modell, das ausgewählte Funktionen verwendet, sodass Sie keinen anderen Regressionsschritt verwenden müssen, wie Sie als hybriden Ansatz erwähnt haben

— Wütender Idiot
quelle