In welcher Einstellung würden Sie erwarten, dass sich das von LARS gefundene Modell am meisten von dem durch umfassende Suche gefundenen Modell unterscheidet?

Ein bisschen mehr Infos; nehme an, dass

Sie wissen vorher, wie viele Variablen Sie auswählen müssen und dass Sie die Komplexitätsstrafe in der LARS-Prozedur festlegen, um genau so viele Variablen mit Koeffizienten ungleich 0 zu haben.
Berechnungskosten sind kein Problem (die Gesamtzahl der Variablen ist gering, sagen wir 50).
dass alle Variablen (y, x) stetig sind.

In welcher Einstellung würde sich das LARS-Modell (dh die OLS-Anpassung dieser Variablen mit Koeffizienten ungleich Null in der LARS-Anpassung) am stärksten von einem Modell mit der gleichen Anzahl von Koeffizienten unterscheiden, das jedoch durch umfassende Suche gefunden wurde (a la regsubsets ())?

Bearbeiten: Ich verwende 50 Variablen und 250 Beobachtungen mit den reellen Koeffizienten, die aus einem Standard-Gaußschen Wert gezogen wurden, mit Ausnahme von 10 Variablen mit 'reellen' Koeffizienten von 0 (und allen Merkmalen, die stark miteinander korreliert sind). Diese Einstellungen sind offensichtlich nicht gut, da die Unterschiede zwischen den beiden ausgewählten Variablen winzig sind. Dies ist wirklich eine Frage, welche Art von Datenkonfiguration man simulieren sollte, um die meisten Unterschiede zu erzielen.

regression model-selection

— user603
quelle

Antworten:

Hier ist die Beschreibung des LARS-Algorithmus: http://www-stat.stanford.edu/~tibs/lasso/simple.html Er ignoriert die Korrelation zwischen den Regressoren, sodass ich vermuten würde, dass er möglicherweise verpasst wird die Passform bei Multikollinearität.

— Alex
quelle

Das ist es, was meine Frage tatsächlich motiviert. Ich habe Einstellungen mit 50 Variablen simuliert, bei denen der größte Wert des vif über 30 liegt, und ich sehe immer noch sehr wenige Unterschiede (zum Beispiel in Bezug auf R ^ 2 der ausgewählten Modelle) zwischen den beiden Ansätzen.

— user603

Ich selbst habe mit stepAIC und lars unterschiedliche Antworten gefunden und würde mir vorstellen, dass mein Problem mit der Gruppe LASSO behandelt werden soll - es geht nicht um das VIF der gesamten Matrix, sondern um eine Reihe von Clustern korrelierter Variablen.

— Alex

Interessant ... wie generieren Sie solche Daten? (dh mit Clustern korrelierter Variablen)

— user603

Stapeln Sie eine Reihe unabhängiger Gruppen mit Korrelation in ihnen. Ich selbst habe eine Reihe derselben Fragen zu einer Reihe von Marken gestellt - die Leute mögen die Marke ihrer Wahl und andere nicht.

— Alex

Je mehr Funktionen Sie in Bezug auf die Anzahl der Stichproben haben, desto passender werden Sie wahrscheinlich mit der exaustiven Suchmethode als mit LARS. Der in LARS verwendete Strafbegriff legt eine verschachtelte Struktur zunehmend komplexer Modelle fest, die durch einen einzelnen Regularisierungsparameter indiziert werden, sodass die "Freiheitsgrade" der Merkmalsauswahl mit LARS relativ gering sind. Für die exaustive Suche gibt es effektiv einen (binären) Freiheitsgrad pro Merkmal, was bedeutet, dass die exaustive Suche die zufällige Variabilität des Merkmalsauswahlkriteriums aufgrund der zufälligen Stichprobe der Daten besser ausnutzen kann. Infolgedessen wird das exaustive Suchmodell wahrscheinlich stark an das Merkmalauswahlkriterium angepasst, da die "Hypothesenklasse" größer ist.

— Dikran Beuteltier
quelle

Ihre Antwort scheint nichts mit meiner Frage zu tun zu haben. Um es klar zu machen: Ich bin wirklich daran interessiert, Situationen zu generieren, in denen sich die Teilmenge der von LARS als aktiv ausgewählten Variablen am stärksten von der durch erschöpfende Suche ausgewählten unterscheidet, wobei dies beispielsweise anhand des Unterschieds in R ^ 2 zwischen dem LARS-Modell gemessen wird und das erschöpfende Suchmodell mit der gleichen Anzahl aktiver Variablen . Können Sie sich einen gegnerischen Fall vorstellen, in dem dieser Unterschied groß wäre? Können Sie Ihre Antwort in diesen Begriffen umformulieren?

— user603

Meine Antwort steht in direktem Zusammenhang mit Ihrer Frage. Der Grad der Überanpassung wird nicht nur durch die Anzahl der Merkmale, sondern auch durch die Werte der Gewichte gesteuert. Somit ist eine Überanpassung ohne Verwendung weiterer Funktionen möglich. LARS bestraft die Größe der Gewichte, wählt also keine Funktionen aus, die den quadratischen Verlust nur auf Kosten von Gewichten mit großer Größe reduzieren, weshalb es weniger anfällig für Überanpassungen ist. Exaustive Suchmethoden sind im Grunde genommen ein Rezept für eine Überanpassung, sodass Sie in Situationen, in denen eine Überanpassung wahrscheinlich ist, sehr unterschiedliche Lösungen erhalten.

— Dikran Marsupial

Ok, ich verstehe Ihren Standpunkt: Es kommt von etwas, das ich in meiner ursprünglichen Frage beschönigt habe (und hoffentlich jetzt klarer gemacht habe). Ich vergleiche hier wirklich Apfel mit Äpfeln (dh den ausgewählten Modellen), oder mit anderen Worten, die (R ^ 2 der) OLS-Anpassung unter Verwendung der von LARS ausgewählten Variablen und die (R ^ 2 der) OLS-Anpassung unter Verwendung dieser Variablen Variablen, die durch umfassende Suche ausgewählt wurden. Ich benutze nicht direkt die LARS-Koeffizienten ....

— user603

Es ist nicht orthogonal, ein Modell ist wahrscheinlich nicht besser als ein anderes, ohne anders zu sein. In Situationen, in denen eine Überanpassung wahrscheinlich ist, ist ein auf exaustiver Suche basierendes Modell wahrscheinlich instabil. Wenn Sie also verschiedene 500 Stichproben sammeln, erhalten Sie wahrscheinlich andere Funktionen. LARS hingegen ist wahrscheinlich stabiler. Ob 50 Merkmale und 500 Stichproben wahrscheinlich zu einer Überanpassung führen, hängt von der Art des Datensatzes ab, ist aber durchaus möglich. Bei einer umfassenden Suche können Merkmale ausgewählt werden, die die für diese Stichprobe charakteristische Variabilität erklären. LARS weniger.

— Dikran Marsupial

Es könnte hilfreich sein, wenn Sie erklären könnten, warum Sie das tun möchten. Ich vermute, Sie müssen sich die Größen der Gewichte des wahren Modells sowie die der Verteilung der Daten ansehen. Bestrafte Regressionsmodelle (LASSO, LARS, Elaris net, Ridge Regression) haben einen Vorrang vor der erwarteten Gewichtsverteilung. Wenn Sie also einen Datensatz haben, in dem dies ungültig ist, ist dies möglicherweise ein guter Ausgangspunkt.

— Dikran Marsupial