Ich habe einen Datensatz mit ungefähr 5.000 häufig korrelierten Merkmalen / Kovariaten und einer binären Antwort. Die Daten wurden mir gegeben, ich habe sie nicht gesammelt. Ich benutze Lasso und Gradientenverstärkung, um Modelle zu bauen. Ich verwende iterierte, verschachtelte Kreuzvalidierung. Ich berichte über Lassos größte (absolute) 40 Koeffizienten und die 40 wichtigsten Merkmale der Bäume mit Gradientenverstärkung (40 hatte nichts Besonderes; es schien nur eine vernünftige Menge an Informationen zu sein). Ich berichte auch über die Varianz dieser Größen über die Falten und Iterationen des Lebenslaufs.
Ich denke über die "wichtigen" Merkmale nach und mache keine Aussagen über p-Werte oder Kausalität oder irgendetwas, sondern betrachte diesen Prozess als eine Art - wenn auch unvollkommenen und zufälligen - Einblick in ein Phänomen.
Angenommen, ich habe dies alles richtig gemacht (z. B. Kreuzvalidierung korrekt ausgeführt, skaliert für Lasso), ist dieser Ansatz sinnvoll? Gibt es Probleme beispielsweise mit dem Testen mehrerer Hypothesen, der Post-hoc-Analyse oder der falschen Entdeckung? Oder andere Probleme?
Zielsetzung
Prognostizieren Sie die Wahrscheinlichkeit eines unerwünschten Ereignisses
- Schätzen Sie in erster Linie die Wahrscheinlichkeit genau
- Geringfügiger - zur Überprüfung der geistigen Gesundheit, aber auch, um möglicherweise einige neuartige Prädiktoren aufzudecken, die weiter untersucht werden könnten, überprüfen Sie die oben genannten Koeffizienten und Wichtigkeiten.
Verbraucher
- Forscher, die daran interessiert sind, dieses Ereignis vorherzusagen, und die Personen, die das Ereignis beheben müssen, wenn es auftritt
Was ich möchte, dass sie da rauskommen
Geben Sie ihnen die Möglichkeit, das Ereignis vorherzusagen, wenn sie den beschriebenen Modellierungsprozess mit ihren eigenen Daten wiederholen möchten.
Wirf etwas Licht auf unerwartete Prädiktoren. Zum Beispiel könnte sich herausstellen, dass etwas völlig Unerwartetes der beste Prädiktor ist. Modellierer anderswo könnten diesen Prädiktor daher ernsthafter berücksichtigen.