Wie vertretbar ist es,

11

Wenn ich mein Lambda durch Kreuzvalidierung bestimme, werden alle Koeffizienten Null. Aber ich habe einige Hinweise aus der Literatur, dass einige der Prädiktoren definitiv das Ergebnis beeinflussen sollten. Ist es Unsinn, Lambda willkürlich zu wählen, damit es genauso wenig Sparsamkeit gibt, wie man möchte?

Ich möchte die Top 10 oder so Prädiktoren aus 135 für ein Cox-Modell auswählen und die Effektgrößen sind leider klein.

lasso

— miura
quelle

6

Klingt so, als ob Sie einen informativen Prior verwenden sollten, da Sie nicht datenbasierte Informationen haben.

— Wahrscheinlichkeitslogik

Tief im Inneren denke ich, dass das richtig wäre, leider fehlt mir völlig die statistische Fähigkeit, auch jetzt noch damit zu beginnen.

— Miura

1

Sie scheinen zwei verschiedene Dinge zu verwechseln: (1) Wenn Sie in der Literatur aufgefordert werden, bestimmte Prädiktoren zu verwenden, nehmen Sie diese in alle Modelle auf. (2) Stattdessen scheinen Sie dies so zu interpretieren, dass Sie eine bestimmte Anzahl aus vielen Prädiktoren auswählen sollten , unabhängig davon, ob sie die in der Literatur genannten spezifischen enthalten. Können Sie klarstellen, was Sie tatsächlich erreichen möchten?

— whuber

4

Wenn Sie mindestens eine bestimmte Anzahl von Prädiktoren mit einem in der Literatur definierten Wertebereich haben möchten, warum sollten Sie sich zunächst für den reinen LASSO-Ansatz entscheiden? Wie von @probabilityislogic vorgeschlagen, sollten Sie einige informative Prioritäten für die Variablen verwenden, über die Sie etwas wissen. Wenn Sie einige der LASSO-Eigenschaften für den Rest der Prädiktoren beibehalten möchten, können Sie möglicherweise einen Prior mit einer doppelten Exponentialverteilung für jede andere Eingabe verwenden, dh eine Dichte der Form wobeider Lagrange-Multiplikator ist, der der reinen LASSO-Lösung entspricht. Diese letzte Aussage ergibt sich aus der Tatsache, dass dies in Abwesenheit der Variablen mit den informativen Prioritäten eine weitere Möglichkeit ist, den LASSO abzuleiten (durch Maximierung des posterioren Modus unter Berücksichtigung der Normalitätsannahmen für die Residuen).

p (β_{i}) = \frac{λ}{2} exp (- λ | β_{i} |),

$p(\beta_i)=\frac{\lambda}{2}\text{exp}\left(-\lambda|\beta_i|\right),$

λ

$\lambda$

— Néstor
quelle

3

Es gibt eine gute Möglichkeit, LASSO durchzuführen, aber eine feste Anzahl von Prädiktoren zu verwenden. Es handelt sich um die in Efrons Artikel beschriebene Regression des kleinsten Winkels (LAR oder LARS). Während des iterativen Vorgangs werden mehrere lineare Modelle erstellt. Jedes neue Modell verfügt über einen weiteren Prädiktor, sodass Sie eines mit der gewünschten Anzahl von Prädiktoren auswählen können.

Ein anderer Weg ist oder $l_1$ $l_2$ Regularisierung. Wie von Nestor unter Verwendung geeigneter Prioritäten erwähnt, können Sie Vorkenntnisse in das Modell integrieren. Eine sogenannte Relevanzvektormaschine durch Tippen kann nützlich sein.

— Alexey Zaytsev
quelle

3

Während LARS und das Lasso eng miteinander verwandt sind, enthalten sie für eine feste Anzahl von Prädiktoren möglicherweise nicht einmal dieselben Variablen. Man könnte einen Strafwert für das Lasso wählen , der die gewünschte Anzahl von Prädiktoren ergibt, aber die Wahl wird in keinem Fall eindeutig sein! Daher hat das OP noch kein genau definiertes Verfahren bereitgestellt, was Teil des Problems ist. Für LARS gibt es den schönen Vorteil, dass die Strafwerte, die eine bestimmte Anzahl von Prädiktoren ergeben, ein Intervall bilden, sodass die Auswahl eines Endpunkts (welcher?) Oder Mittelpunkts oder eines anderen Kriteriums etwas einfacher ist.

— Kardinal

1

Ja, es stimmt, dass LARS und LASSO nicht identisch sind, aber eine einfache Modifikation von LARS, die von den Autoren im Originalartikel vorgeschlagen wurde, kann eingeführt werden, um LASSO-Lösungen unter Verwendung der LARS-basierten Technik zu erhalten.

— Alexey Zaytsev

Ja, Alexey, das ist wahr. Ich denke, mein Kommentar dreht sich darum, warum ich überhaupt zu LARS gewechselt bin. Man könnte normalerweise genauso leicht einen Wert des Strafparameters für das Lasso wählen, der die gewünschte Anzahl von Prädiktoren ergibt. Der Hauptpunkt, der nicht angesprochen wird, ist, wie man eine eindeutige Auswahl treffen sollte und welche Konsequenzen dies im Fall des OP haben könnte. :)

— Kardinal

2

$\left| S^* \right| = \left| \left\{ j : \beta^*_j \neq 0 \right\} \right|$ $\beta^*$ $|S^*|$ $2^p$ $|S^*|$ ${p \choose |S^*|}$

$\lambda$ $\lambda$ $|S^*|$

$\hat\beta$ $\beta^*$ $\hat{S} = \{j \, : \, \hat\beta_j \neq 0 \}$ $S^* \subseteq \hat{S}$ $\hat{S} \subseteq S^*$ Damit Sie wissen, dass sich alle gefundenen Funktionen lohnen? In diesen Fällen wäre Ihr Verfahren gerechtfertigter, wenn Sie zuvor Informationen über die relativen Größen von hätten $S^*$ .

Beachten Sie auch, dass Sie einige Koeffizienten ungestraft lassen können, wenn Sie beispielsweise Lasso ausführen glmnet.

— user795305
quelle