Der Hauptvorteil der schrittweisen Regression besteht darin, dass sie rechnerisch effizient ist. Die Leistung ist jedoch im Allgemeinen schlechter als bei alternativen Methoden. Das Problem ist, dass es zu gierig ist. Indem beim nächsten Regressor eine harte Auswahl getroffen und das Gewicht "eingefroren" wird, werden Entscheidungen getroffen, die bei jedem Schritt lokal optimal, im Allgemeinen jedoch suboptimal sind. Und es kann nicht zurückgehen, um seine früheren Entscheidungen zu revidieren.
Soweit mir bekannt ist, ist die schrittweise Regression im Vergleich zur regulierten Regression (LASSO), die tendenziell bessere Lösungen liefert, im Allgemeinen in Ungnade gefallen .l1
Tibshirani (1996) . Regressionsschrumpfung und Selektion über das Lasso
LASSO bestraft die -Norm der Gewichte, was zu einer Sparsamkeit in der Lösung führt (viele Gewichte werden auf Null gesetzt). Dies führt eine Variablenauswahl durch (die 'relevanten' Variablen dürfen Gewichte ungleich Null haben). Der Grad der Sparsamkeit wird durch den Strafbegriff gesteuert, und es muss ein Verfahren angewendet werden, um ihn auszuwählen (Kreuzvalidierung ist eine häufige Wahl). LASSO ist rechenintensiver als die schrittweise Regression, es gibt jedoch eine Reihe effizienter Algorithmen. Einige Beispiele sind die kleinste Winkelregression ( LARS ) und ein Ansatz, der auf dem Koordinatenabstieg basiert .l1
Ein ähnlicher Ansatz wie in (2) vorgeschlagen wird als orthogonale Matching-Verfolgung bezeichnet. Es ist eine Verallgemeinerung des Matching-Strebens, was der Name für schrittweise Regression in der Literatur zur Signalverarbeitung ist.
Pati et al. (1993) . Orthogonales Matching-Streben: rekursive Funktionsnäherung mit Anwendungen zur Wavelet-Zerlegung
Bei jeder Iteration wird der nächstbeste Regressor zum aktiven Satz hinzugefügt. Dann werden die Gewichte für alle Regressoren in der aktiven Menge neu berechnet. Aufgrund des Neugewichtungsschritts ist dieser Ansatz weniger gierig (und hat eine bessere Leistung) als das reguläre Matching-Streben / die schrittweise Regression. Es wird jedoch immer noch eine gierige Suchheuristik verwendet.
Alle diese Ansätze (schrittweise Regression, LASSO und orthogonale Matching-Verfolgung) können als Annäherungen an das folgende Problem angesehen werden:
Mindestw∥ y- X.w ∥22st ∥ w ∥0≤ c
In einem Regressionskontext entsprechen die Spalten von den unabhängigen Variablen und der abhängigen Variablen. Bei der Signalverarbeitung entsprechen die Spalten von Basisfunktionen und ist ein zu approximierendes Signal. Das Ziel ist es, einen spärlichen Satz von Gewichten , die die beste Annäherung (kleinste Quadrate) von . Die Norm zählt einfach die Anzahl der Einträge ungleich Null in . Leider ist dieses Problem NP-schwer, so dass in der Praxis Approximationsalgorithmen verwendet werden müssen. Schrittweise Regression und orthogonale Matching-Verfolgung versuchen, das Problem mithilfe einer gierigen Suchstrategie zu lösen. LASSO formuliert das Problem mit einer Entspannung derX.yX.ywyl0wl0 Norm zur Norm. Hier wird das Optimierungsproblem konvex (und damit nachvollziehbar). Und obwohl das Problem nicht mehr identisch ist, ist die Lösung ähnlich. Wenn ich mich richtig erinnere, hat sich gezeigt, dass sowohl LASSO als auch orthogonale Matching-Verfolgung unter bestimmten Bedingungen die genaue Lösung wiederherstellen.l1