Ich würde gerne Prädiktoren für eine stetige abhängige Variable aus einer Menge von 30 unabhängigen Variablen finden. Ich verwende die Lasso-Regression, wie sie im glmnet- Paket in R implementiert ist. Hier ist ein Dummy-Code:
# generate a dummy dataset with 30 predictors (10 useful & 20 useless)
y=rnorm(100)
x1=matrix(rnorm(100*20),100,20)
x2=matrix(y+rnorm(100*10),100,10)
x=cbind(x1,x2)
# use crossvalidation to find the best lambda
library(glmnet)
cv <- cv.glmnet(x,y,alpha=1,nfolds=10)
l <- cv$lambda.min
alpha=1
# fit the model
fits <- glmnet( x, y, family="gaussian", alpha=alpha, nlambda=100)
res <- predict(fits, s=l, type="coefficients")
res
Meine Fragen sind, wie man die Ausgabe interpretiert:
Ist es richtig zu sagen, dass in der endgültigen Ausgabe alle Prädiktoren, die einen von Null verschiedenen Koeffizienten anzeigen, mit der abhängigen Variablen verknüpft sind?
Wäre das ein ausreichender Bericht im Rahmen einer Zeitschriftenveröffentlichung? Oder soll es Teststatistiken für die Signifikanz der Koeffizienten geben? (Der Kontext ist Humangenetik)
Ist es sinnvoll, p-Werte oder andere Teststatistiken zu berechnen, um die Signifikanz zu beanspruchen? Wie wäre das möglich? Ist eine Prozedur in R implementiert?
Wäre ein einfaches Regressionsdiagramm (mit einer linearen Anpassung geplottete Datenpunkte) für jeden Prädiktor eine geeignete Möglichkeit, diese Daten zu visualisieren?
Vielleicht kann jemand ein paar einfache Beispiele für veröffentlichte Artikel liefern, die die Verwendung von Lasso im Kontext einiger realer Daten zeigen und wie man dies in einer Zeitschrift meldet?
cv
für den Vorhersageschritt verwenden?