Ich bin ein bisschen ein Nihilist geworden, wenn es um Rangfolgen mit variabler Wichtigkeit geht (im Kontext von multivariaten Modellen aller Art).
Oft werde ich im Verlauf meiner Arbeit gebeten, einem anderen Team zu helfen, ein Ranking mit variabler Wichtigkeit zu erstellen, oder ein Ranking mit variabler Wichtigkeit aus meiner eigenen Arbeit zu erstellen. Als Antwort auf diese Anfragen stelle ich die folgenden Fragen
Wofür möchten Sie diese Rangfolge mit variabler Wichtigkeit? Was hoffen Sie daraus zu lernen? Welche Art von Entscheidungen möchten Sie damit treffen?
Die Antworten, die ich bekomme, fallen fast immer in eine von zwei Kategorien
- Ich würde gerne wissen, wie wichtig die verschiedenen Variablen in meinem Modell für die Vorhersage der Reaktion sind.
- Ich möchte es für die Merkmalsauswahl verwenden, indem ich Variablen mit geringer Wichtigkeit entferne.
Die erste Antwort ist tautologisch (ich möchte eine Rangfolge mit variabler Wichtigkeit, weil ich eine Rangfolge mit variabler Wichtigkeit möchte). Ich muss davon ausgehen, dass diese Rankings ein psychologisches Bedürfnis erfüllen, wenn man die Ausgabe eines multivariaten Modells konsumiert. Es fällt mir schwer, dies zu verstehen, da die Rangfolge der Variablen "Wichtigkeit" für sich genommen implizit die Mehrdimensionalität des fraglichen Modells zu verwerfen scheint.
Die zweite Antwort reduziert sich im Wesentlichen auf eine informelle Version der Rückwärtsauswahl , deren statistische Sünden in anderen Teilen von CrossValidated gut dokumentiert sind.
Ich kämpfe auch mit der unklaren Natur von Wichtigkeitsklassifizierungen. Es scheint wenig Übereinstimmung darüber zu geben, welches Konzept das Ranking messen soll, was ihnen einen sehr ad-hoc-Charakter verleiht. Es gibt viele Möglichkeiten, einen Wichtigkeitswert oder eine Rangfolge zuzuweisen, und sie leiden im Allgemeinen unter Nachteilen und Vorbehalten:
- Sie können stark vom Algorithmus abhängig sein, wie in den Wichtigkeitsrankings in zufälligen Wäldern und Gbms.
- Sie können eine extrem hohe Varianz aufweisen und sich mit Störungen der zugrunde liegenden Daten drastisch ändern.
- Sie können stark unter der Korrelation in den Eingabeprädiktoren leiden.
Nach alledem ist meine Frage: Was sind statistisch gültige Verwendungen von Rangfolgen mit variabler Wichtigkeit oder was ist ein überzeugendes Argument (entweder für einen Statistiker oder für einen Laien) für die Sinnlosigkeit eines solchen Wunsches? Ich interessiere mich sowohl für allgemeine theoretische Argumente als auch für Fallstudien, je nachdem, was für eine Aussage effektiver wäre.
glmnet
es verfügbar ist?