Was halten Sie von der Anwendung maschineller Lerntechniken wie Random Forests oder bestrafter Regression (mit L1- oder L2-Strafe oder einer Kombination davon) in klinischen Studien mit kleinen Stichproben, wenn das Ziel darin besteht, interessante Prädiktoren in einem Klassifizierungskontext zu isolieren? Es ist keine Frage der Modellauswahl, und ich frage auch nicht, wie optimale Schätzungen der variablen Wirkung / Wichtigkeit zu finden sind. Ich habe nicht vor, starke Schlussfolgerungen zu ziehen, sondern nur multivariate Modelle zu verwenden, um zu vermeiden, dass jeder Prädiktor einzeln mit dem Ergebnis von Interesse verglichen und die Wechselbeziehungen berücksichtigt werden.
Ich habe mich nur gefragt, ob ein solcher Ansatz in diesem speziellen Extremfall bereits angewendet wurde, sagen wir 20 bis 30 Probanden mit Daten zu 10 bis 15 kategorialen oder kontinuierlichen Variablen. Es ist nicht gerade die Fall und ich denke , das hier Problem der Anzahl der Klassen in Beziehung steht es zu erklären versuchen, (die oft nicht gut ausgewogen) und die (sehr) kleine n. Mir ist die umfangreiche Literatur zu diesem Thema im Kontext der Bioinformatik bekannt, aber ich habe keinen Hinweis auf biomedizinische Studien mit psychometrisch gemessenen Phänotypen gefunden (z. B. in neuropsychologischen Fragebögen).
Irgendwelche Hinweise oder Hinweise auf relevante Papiere?
Aktualisieren
Ich bin offen für andere Lösungen zur Analyse dieser Art von Daten, z. B. C4.5-Algorithmus oder dessen Derivate, Assoziationsregelmethoden und Data-Mining-Techniken für überwachte oder halbüberwachte Klassifizierung.