Soft-Thresholding gegen Lasso-Bestrafung


11

Ich versuche, das, was ich bisher in der bestraften multivariaten Analyse verstanden habe, mit hochdimensionalen Datensätzen zusammenzufassen, und ich habe immer noch Schwierigkeiten, eine korrekte Definition von Soft-Thresholding vs. Lasso- Bestrafung (oder Bestrafung) zu erhalten.L1

Genauer gesagt habe ich die spärliche PLS-Regression verwendet, um die 2-Block-Datenstruktur einschließlich genomischer Daten ( Einzelnukleotidpolymorphismen , bei denen wir die Häufigkeit des Nebenallels im Bereich {0,1,2} als numerische Variable betrachten) und zu analysieren kontinuierliche Phänotypen (Scores zur Quantifizierung von Persönlichkeitsmerkmalen oder zerebraler Asymmetrie, auch als kontinuierliche Variablen behandelt). Die Idee war, die einflussreichsten Prädiktoren (hier die genetischen Variationen der DNA-Sequenz) zu isolieren, um interindividuelle phänotypische Variationen zu erklären.

Ich habe anfangs das mixOmics R-Paket (früher integrOmics) verwendet, das eine bestrafte PLS- Regression und eine regulierte CCA enthält . Beim Betrachten des R-Codes haben wir festgestellt, dass die "Sparsity" in den Prädiktoren einfach durch Auswahl der Top- Variablen mit den höchsten Belastungen (in absoluten Werten) für die i- te Komponente i = 1 , ... , k (der Algorithmus ist ) induziert wird iterative und berechnete Variablenladungen auf k Komponenten, wobei der Prädiktorblock bei jeder Iteration entleert wird (siehe Sparse PLS: Variablenauswahl beim Integrieren von Omics-Daten für eine Übersicht). Im Gegenteil, diekii=1,,kkDas von S. Keleş mitverfasste spls- Paket (siehe Sparse Partial Least Squares Regression für simultane Dimensionsreduktion und Variablenauswahl für eine formellere Beschreibung des von diesen Autoren verfolgten Ansatzes) implementiert die -Penalisierung für die variable Bestrafung.L1

Es ist mir nicht klar, ob es sozusagen eine strikte "Bijektion" zwischen iterativer Merkmalsauswahl auf der Basis von Soft-Thresholding und -Regularisierung gibt. Meine Frage lautet also: Gibt es einen mathematischen Zusammenhang zwischen den beiden?L1

Verweise

  1. Chun, H. und Kele S.s, S. (2010), Sparse Partial Least Squares zur gleichzeitigen Dimensionsreduktion und Variablenauswahl . Zeitschrift der Royal Statistical Society: Reihe B , 72 , 3–25.
  2. Le Cao, K.-A., Rossouw, D., Robert-Granie, C. und Besse, P. (2008), A Sparse PLS for Variable Selection bei der Integration von Omics-Daten . Statistische Anwendungen in der Genetik und Molekularbiologie , 7 , Artikel 35.

Antworten:


2

l1ppl1


@kwak Ok, der LARS-Algorithmus scheint weitaus ausgefeilter zu sein als ein einfaches Schwellenwert für die Variablenbedeutung, aber der Punkt ist, dass ich keine klare Beziehung zwischen dem Strafparameter und der Anzahl der Variablen sehe, die im Modell beibehalten werden sollen. Es scheint mir, dass wir nicht unbedingt einen Strafparameter finden können, der genau eine feste Anzahl von Variablen ergibt.
Chl

@chl:> S-PLS meinst du? (du hast LARS geschrieben, was sich von jedem der von dir diskutierten Algorithmen unterscheidet). In der Tat gibt es eine monotone Beziehung zwischen dem Strafparameter und der Anzahl der Komponenten, aber es handelt sich nicht um eine lineare Beziehung, und diese Beziehung variiert von Fall zu Fall (ist Datensatz- / Problemabhängig).
user603

@kwak L1-Strafe kann mit LARS erreicht werden, es sei denn, ich bin irreführend. Ihr zweiter Punkt ist das, was ich tatsächlich im Sinn habe; Haben Sie einen Hinweis zu diesem Punkt?
Chl

@chl:> * L1-Strafe kann mit LARS erreicht werden, es sei denn, ich bin irreführend * Ich wusste das nicht (und bezweifle es irgendwie). Können Sie eine Referenz angeben? Vielen Dank. für Ihre zweite Frage: Schauen Sie sich die „Freiheitsgrade“ des Lassos Hui Zou, Trevor Hastie und Robert Tibshirani an. Quelle: Ann. Statist. Band 35, Nummer 5 (2007), 2173-2192. (Es gibt viele ungated Versionen).
user603

1
@kwak Schauen Sie sich Tibshiranis Webseite an: www-stat.stanford.edu/~tibs/lasso.html und das larsR-Paket. Andere Methoden umfassen den Koordinatenabstieg (siehe JSS 2010 33 (1), bit.ly/bDNUFo ), und das Python- scikit.learnPaket bietet beide Ansätze, bit.ly/bfhnZz .
Chl

6

L1L1

L1XX1

X


(+1) Danke dafür, besonders für Friedmans Artikel.
Chl
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.