Ich führe eine Analyse durch, bei der das Hauptziel darin besteht, die Daten zu verstehen. Der Datensatz ist groß genug für eine Kreuzvalidierung (10 KB), und Prädiktoren enthalten sowohl kontinuierliche als auch Dummy-Variablen, und das Ergebnis ist kontinuierlich. Hauptziel war es zu sehen, ob es sinnvoll ist, einige Prädiktoren auszuschalten, um die Interpretation des Modells zu vereinfachen.
Fragen:
Meine Frage lautet: "Welche Vars erklären das Ergebnis und sind ein" stark genug "Teil dieser Erklärung?" Um jedoch den Lambda-Parameter für Lasso auszuwählen, verwenden Sie die Kreuzvalidierung, dh die prädiktive Validität als Kriterium. Ist die prädiktive Validität ein ausreichender Ersatz für die allgemeine Frage, die ich stelle?
Angenommen, LASSO hat nur 3 von 8 Prädiktoren behalten. Und jetzt frage ich mich: "Wie wirken sich diese auf das Ergebnis aus?" Zum Beispiel habe ich einen geschlechtsspezifischen Unterschied festgestellt. Nach der Lasso-Schrumpfung deutet der Koeffizient darauf hin, dass Frauen 1 Punkt höher als Männer sind. Ohne die Schrumpfung (dh auf dem tatsächlichen Datensatz) erzielen sie 2,5 Punkte mehr.
- Welchen würde ich als meinen "echten" Gender-Effekt betrachten? Wenn man nur die prädiktive Validität berücksichtigt, wäre dies der geschrumpfte Koeffizient.
- Oder sagen Sie in einem Zusammenhang, dass ich einen Bericht für Personen schreibe, die sich mit Statistiken nicht auskennen. Welchen Koeffizienten würde ich ihnen melden?