Ich habe einen großen Datensatz, der aus den Werten mehrerer hundert Finanzvariablen besteht, die in einer multiplen Regression verwendet werden könnten, um das Verhalten eines Indexfonds im Zeitverlauf vorherzusagen. Ich möchte die Anzahl der Variablen auf etwa zehn reduzieren und dabei so viel Vorhersagekraft wie möglich behalten. Hinzugefügt: Die reduzierte Menge von Variablen muss eine Teilmenge der ursprünglichen Variablenmenge sein, um die wirtschaftliche Bedeutung der ursprünglichen Variablen zu erhalten. So sollte ich zum Beispiel nicht mit linearen Kombinationen oder Aggregaten der ursprünglichen Variablen enden.
Einige (wahrscheinlich naive) Gedanken dazu:
- Führen Sie mit jeder Variablen eine einfache lineare Regression durch und wählen Sie die zehn mit den größten Werten. Natürlich gibt es keine Garantie dafür, dass die zehn besten Einzelvariablen zusammen die beste Zehnergruppe sind.
- Führen Sie eine Hauptkomponentenanalyse durch und versuchen Sie, die zehn ursprünglichen Variablen mit den größten Assoziationen zu den ersten Hauptachsen zu finden.
Ich glaube nicht, dass ich eine hierarchische Regression durchführen kann, da die Variablen nicht wirklich verschachtelt sind. Das Ausprobieren aller möglichen Kombinationen von zehn Variablen ist rechnerisch nicht möglich, da es zu viele Kombinationen gibt.
Gibt es einen Standardansatz, um dieses Problem der Reduzierung der Anzahl von Variablen in einer multiplen Regression anzugehen?
Es scheint, dass dies ein hinreichend häufiges Problem wäre, dass es einen Standardansatz geben würde.
Eine sehr hilfreiche Antwort wäre eine, die nicht nur eine Standardmethode erwähnt, sondern auch einen Überblick darüber gibt, wie und warum sie funktioniert. Wenn es alternativ keinen Standardansatz gibt, sondern mehrere mit unterschiedlichen Stärken und Schwächen, wäre eine sehr hilfreiche Antwort eine, in der die Vor- und Nachteile erörtert werden.
Der folgende Kommentar von whuber weist darauf hin, dass die Anfrage im letzten Absatz zu weit gefasst ist. Stattdessen würde ich als gute Antwort eine Liste der wichtigsten Ansätze akzeptieren, vielleicht mit einer sehr kurzen Beschreibung von jedem. Sobald ich die Bedingungen habe, kann ich die Details zu jedem selbst herausfinden.