Auf Modellebene können wir zur Bewertung des Beitrags / der Bedeutung von Prädiktoren Folgendes verwenden:
- Modellspezifische Techniken - z. B. Reinheit (Gini-Index) für ein baumbasiertes Modell, gegebenenfalls Modellkoeffizienten usw.
- Modellunabhängige Techniken - z. B. Bedeutung von Permutationsmerkmalen, partielle Abhängigkeit usw.
Was dies nicht vermittelt, ist für eine bestimmte Vorhersage (z. B. eine binäre Klassifikation, die eine Wahrscheinlichkeit von 92% für die Zugehörigkeit zur Klasse 1 liefert), welche Prädiktoren bei der Erstellung dieser Vorhersage am „einflussreichsten“ waren.
Nachdem ich ein wenig über dieses Problem nachgedacht habe, scheint es mir einige Ansätze zu geben, die gewählt werden könnten:
- Modellspezifische Techniken - z. B. Koeffizienten anwendbarer linearer Modelle, Techniken wie hier für beispielsweise XGBoost beschrieben ( https://medium.com/applied-data-science/new-r-package-the-xgboost-explainer-51dd7d1aa211 )
- Modellunabhängige Techniken - z. B. eine Art „Störungsmethode“ ähnlich der partiellen Abhängigkeit, um zu verstehen, wie sich die Vorhersage ändert, wenn wir den Prädiktor stören und möglicherweise modellieren? Oder Techniken wie LIME, die in diesem Artikel beschrieben werden ( https://arxiv.org/) pdf / 1602.04938.pdf und https://github.com/marcotcr/lime ), eine modifizierte Permutation Importance-Technik?
Es scheint mir, dass der wertvollste Ansatz eine modellunabhängige Technik wäre, da viele Algorithmen etwas „Black-Box“ -Natur sind und neuartige und neue Algorithmen und Techniken interpretieren können.
Eine hier beschriebene naive Methode ( http://amunategui.github.io/actionable-instights/index.html ) besteht darin, jeden Prädiktor zu nehmen, seine Auswirkungen zu „neutralisieren“, indem beispielsweise der Mittelwert der „Bevölkerung“ unterstellt wird, und die Vorhersage erneut auszuführen einen Unterschied zwischen der ursprünglichen Vorhersage und der neutralisierten Version zu erhalten, die ein wichtiges Maß darstellt. Dies scheint ein Sonderfall einer Art "Störungs" -Methode zu sein, auf die oben hingewiesen wurde. Ein paar Fehler, die ich darin sehe, sind: 1) Es scheint zu implizieren, dass eine Vorhersage, die den „Mittelwert“ (oder ein Äquivalent) jedes Merkmals hat, notwendigerweise eine „mittlere“ Vorhersage ist, und 2) dass Merkmale „Mittelwerte“ sind ”(Oder gleichwertig) sind notwendigerweise nicht wirkungsvoll?
Im Allgemeinen müsste jede Technik Folgendes berücksichtigen:
- Umgang mit verschiedenen Datentypen (numerisch, kategorial usw.)
- Umgang mit fehlenden Daten
- Wie man mit bedingter Wichtigkeit umgeht (dh dass Prädiktoren nur paarweise wichtig sein können usw.)
- Recheneffizienz (ist es wirklich praktisch, eine Vorhersage mal auszuführen, wobei die Anzahl der Prädiktoren ist, oder für eine Störungsmethode wobei die Anzahl der Vorhersagen pro Prädiktor usw. ist)p k p k
Angesichts dieser losen und vielleicht falschen Gedanken zu diesem Thema frage ich mich, welche Herangehensweisen an das Problem die Menschen kennen, in Betracht gezogen, verwendet, beraten usw. haben.