Ich habe einen logistischen Regressionsklassifikator erstellt, der für meine Daten sehr genau ist. Jetzt möchte ich besser verstehen, warum es so gut funktioniert. Im Einzelnen möchte ich klassifizieren, welche Features den größten Beitrag leisten (welche Features am wichtigsten sind) und im Idealfall quantifizieren, wie viel jedes Feature zur Genauigkeit des Gesamtmodells (oder etwas in diesem Sinne) beiträgt. Wie mache ich das?
Mein erster Gedanke war, sie nach ihrem Koeffizienten zu ordnen, aber ich vermute, das kann nicht richtig sein. Wenn ich zwei Features habe, die gleichermaßen nützlich sind, aber die Ausbreitung des ersten zehnmal so groß ist wie die des zweiten, würde ich erwarten, dass der erste einen niedrigeren Koeffizienten als der zweite erhält. Gibt es eine vernünftigere Möglichkeit, die Wichtigkeit von Features zu bewerten?
Beachten Sie, dass ich nicht zu verstehen versuche, wie sehr sich eine kleine Änderung des Features auf die Wahrscheinlichkeit des Ergebnisses auswirkt. Vielmehr versuche ich zu verstehen, wie wertvoll jedes Merkmal für die Genauigkeit des Klassifikators ist. Mein Ziel ist es auch nicht so sehr, eine Featureauswahl durchzuführen oder ein Modell mit weniger Features zu konstruieren, sondern zu versuchen, dem erlernten Modell eine gewisse "Erklärbarkeit" zu verleihen, damit der Klassifikator nicht nur eine undurchsichtige Blackbox ist.