Ich arbeite an einem Projekt und benötige Ressourcen, um mich auf den neuesten Stand zu bringen.
Der Datensatz umfasst etwa 35000 Beobachtungen zu etwa 30 Variablen. Etwa die Hälfte der Variablen ist kategorisch, wobei einige viele verschiedene mögliche Werte haben. Wenn Sie also die kategorialen Variablen in Dummy-Variablen aufteilen, haben Sie viel mehr als 30 Variablen. Aber wahrscheinlich immer noch in der Größenordnung von ein paar hundert max. (n> p).
Die Antwort, die wir vorhersagen möchten, ist ordinal mit 5 Ebenen (1,2,3,4,5). Prädiktoren sind eine Mischung aus kontinuierlich und kategorisch, jeweils etwa die Hälfte. Dies sind meine bisherigen Gedanken / Pläne: 1. Behandeln Sie die Antwort als kontinuierlich und führen Sie eine lineare Vanille-Regression durch. 2. Führen Sie eine nominale und ordinale logistische und Probit-Regression durch. 3. Verwenden Sie MARS und / oder eine andere Variante der nichtlinearen Regression
Ich bin mit linearer Regression vertraut. MARS wird von Hastie und Tibshirani gut genug beschrieben. Aber ich bin ratlos, wenn es um ordinale Logit / Probit geht, insbesondere bei so vielen Variablen und einem großen Datensatz.
Das r-Paket glmnetcr scheint meine bisher beste Wahl zu sein, aber die Dokumentation reicht kaum aus, um mich dahin zu bringen, wo ich sein muss.
Wo kann ich mehr erfahren?