Ein bisschen mehr Infos; nehme an, dass
- Sie wissen vorher, wie viele Variablen Sie auswählen müssen und dass Sie die Komplexitätsstrafe in der LARS-Prozedur festlegen, um genau so viele Variablen mit Koeffizienten ungleich 0 zu haben.
- Berechnungskosten sind kein Problem (die Gesamtzahl der Variablen ist gering, sagen wir 50).
- dass alle Variablen (y, x) stetig sind.
In welcher Einstellung würde sich das LARS-Modell (dh die OLS-Anpassung dieser Variablen mit Koeffizienten ungleich Null in der LARS-Anpassung) am stärksten von einem Modell mit der gleichen Anzahl von Koeffizienten unterscheiden, das jedoch durch umfassende Suche gefunden wurde (a la regsubsets ())?
Bearbeiten: Ich verwende 50 Variablen und 250 Beobachtungen mit den reellen Koeffizienten, die aus einem Standard-Gaußschen Wert gezogen wurden, mit Ausnahme von 10 Variablen mit 'reellen' Koeffizienten von 0 (und allen Merkmalen, die stark miteinander korreliert sind). Diese Einstellungen sind offensichtlich nicht gut, da die Unterschiede zwischen den beiden ausgewählten Variablen winzig sind. Dies ist wirklich eine Frage, welche Art von Datenkonfiguration man simulieren sollte, um die meisten Unterschiede zu erzielen.