Ranking-Funktionen in der logistischen Regression


10

Ich habe die logistische Regression verwendet. Ich habe sechs Funktionen. Ich möchte die wichtigen Funktionen in diesem Klassifikator kennen, die das Ergebnis stärker beeinflussen als andere Funktionen. Ich habe Information Gain verwendet, aber es scheint, dass es nicht vom verwendeten Klassifikator abhängt. Gibt es eine Methode, um die Features nach ihrer Wichtigkeit basierend auf einem bestimmten Klassifikator (wie der logistischen Regression) zu ordnen? Jede Hilfe wäre sehr dankbar.


3
Die logistische Regression ist kein Klassifikator. Bitte schreiben Sie Ihre Frage neu, um zu berücksichtigen, dass die logistische Regression ein direktes Wahrscheinlichkeitsschätzungsmodell ist.
Frank Harrell

1
Haben Sie sich neben dem von FrankHarrell angesprochenen Punkt die Werte Ihrer geschätzten Koeffizienten angesehen? Es ist definitiv nicht die beste Art, Features zu bewerten, aber es kann Ihnen einen Ausgangspunkt geben. p
usεr11852

9
Sicher, logistische Regression schätzt Wahrscheinlichkeiten und klassifiziert Dinge nicht explizit, aber wen interessiert das? Der Zweck besteht oft darin, zu entscheiden, welche Klasse am wahrscheinlichsten ist, und es ist nichts Falsches daran, sie als Klassifikator zu bezeichnen, wenn Sie sie dafür verwenden.
Dsaxton

Antworten:


5

Ich denke, die Antwort, die Sie suchen, könnte der Boruta- Algorithmus sein. Dies ist eine Wrapper-Methode, die die Wichtigkeit von Features direkt im Sinne von "Alle Relevanz" misst und in einem R-Paket implementiert ist , das schöne Diagramme erstellt, z. B. diese Handlungwo die Wichtigkeit eines Features auf der y-Achse liegt und mit a verglichen wird Null hier blau dargestellt. Dieser Blog-Beitrag beschreibt den Ansatz und ich würde empfehlen, ihn als sehr klares Intro zu lesen.


Netter Vorschlag (+1). Ich denke, es ist ein bisschen übertrieben für diese Anwendung, aber trotzdem eine gute Ergänzung. Ich weiß auf jeden Fall zu schätzen, dass es in Situationen gut funktioniert . Kennen Sie vergleichende Überprüfungsstudien, in denen sie mit anderen Klassifizierungsalgorithmen verglichen wurden? p>>n
usεr11852

@ usεr11852 Nein, ich nicht. Ich bin erst in der letzten Woche selbst darauf gestoßen.
Babelproofreader

Hmmm ... OK, Boruta scheint sehr vielversprechend zu sein, aber ich bin immer skeptisch gegenüber großartigen neuen Algorithmen, bis ich sie als Teil einer umfassenderen Studie betrachte und die Fälle sehe, in denen sie sich nicht auszeichnen ( kein Satz zum kostenlosen Mittagessen ).
usεr11852

Interessante Idee, hat aber nichts mit logistischer Regression zu tun.
Frank Harrell

„Boruta ist ein Merkmalsauswahlverfahren, keine Feature - Ranking - Methode“ finden Sie in der FAQ auf Paket Homepage
steadyfish

3

Um zu verstehen, wie Variablen nach Bedeutung für Regressionsmodelle eingestuft werden, können Sie mit der linearen Regression beginnen. Ein beliebter Ansatz zur Einstufung der Bedeutung einer Variablen in einem linearen Regressionsmodell besteht darin, in Beiträge zu zerlegen , die jeder Variablen zugeordnet sind. Aufgrund der Korrelationen zwischen Variablen ist die Bedeutung von Variablen bei der linearen Regression jedoch nicht einfach. Siehe das Dokument zur Beschreibung der PMD-Methode (Feldman, 2005) [ 3 ]. Ein weiterer populärer Ansatz ist die Mittelung über Ordnungen (LMG, 1980) [ 2 ].R2

Es besteht kein großer Konsens darüber, wie Variablen für die logistische Regression eingestuft werden sollen. Einen guten Überblick über dieses Thema gibt [ 1 ]. Es beschreibt Anpassungen der linearen Regressionstechniken mit relativer Bedeutung unter Verwendung von Pseudo- für die logistische Regression.R2

Eine Liste der gängigen Ansätze zur Einstufung der Merkmalsbedeutung in logistischen Regressionsmodellen ist:

  1. Logistische Pseudo-Teilkorrelation (unter Verwendung von Pseudo- )R2
  2. Angemessenheit: Der Anteil der vollständigen Modellprotokollwahrscheinlichkeit, der von jedem Prädiktor einzeln erklärt werden kann
  3. Konkordanz: Zeigt die Fähigkeit eines Modells an, zwischen positiven und negativen Antwortvariablen zu unterscheiden. Für jeden Prädiktor wird ein separates Modell erstellt, und der Wichtigkeitswert ist die vorhergesagte Wahrscheinlichkeit für echte Positive, die allein auf diesem Prädiktor basiert.
  4. Informationswert: Informationswerte quantifizieren die Informationsmenge über das Ergebnis eines Prädiktors. Es basiert wiederum auf einer Analyse jedes Prädiktors, ohne die anderen Prädiktoren zu berücksichtigen.

Verweise:

  1. Zur Messung der relativen Bedeutung erklärender Variablen in einer logistischen Regression
  2. Relative Bedeutung von linearen Regressoren in R.
  3. Relative Bedeutung und Wert, Barry Feldman (PMD-Methode)

0

Sei nicht beunruhigt. Logistische Regression (LR) kann ein Klassifizierungsschema sein. LR minimiert den folgenden Verlust: wobei und der Merkmalsvektor und der sind, zum Beispiel aus Ihrem Trainingssatz. Diese Funktion ergibt sich aus der gemeinsamen Wahrscheinlichkeit aller Trainingsbeispiele, was ihre probabalistische Natur erklärt, obwohl wir sie zur Klassifizierung verwenden. In der Gleichung ist Ihr Gewichtsvektor und Ihre Vorspannung. Ich vertraue darauf, dass Sie wissen, was

minw,bi=1nlog(1+exp(yifw,b(xi)))+λw2
xiyiiwbfw,b(xi)ist. Der letzte Term im Minimierungsproblem ist der Regularisierungsterm, der unter anderem die Generalisierung des Modells steuert.

Angenommen, alle Ihre sind normalisiert, beispielsweise durch Abweichung von der Größe von , ist es ziemlich einfach zu erkennen, welche Variablen wichtiger sind: diejenigen, die größer sind als die anderen oder (auf der negativen Seite) ) kleiner von den anderen. Sie beeinflussen den Verlust am meisten.xx

Wenn Sie die wirklich wichtigen Variablen finden und dabei nichts dagegen haben, ein paar , können Ihre Verlustfunktion regulieren: 1

minw,bi=1nlog(1+exp(yifw,b(xi)))+λ|w|

Die Derivate oder der Regularizer sind recht einfach, daher werde ich sie hier nicht erwähnen. Wenn Sie diese Form der Regularisierung und ein geeignetes werden die weniger wichtigen Elemente in auf Null gesetzt und die anderen nicht.λw

Ich hoffe das hilft. Fragen Sie, wenn Sie weitere Fragen haben.


4
LR ist kein Klassifizierungsschema. Jede Verwendung der Klassifizierung erfolgt nach der Definition der Nutzen- / Kostenfunktion als Nachschätzungsschritt. Das OP fragte auch nicht nach einer bestraften Maximum-Likelihood-Schätzung. Um die relative Bedeutung von Variablen für die Regression nachzuweisen, ist es sehr einfach, den Bootstrap zu verwenden, um Konfidenzgrenzen für die Ränge der von jedem Prädiktor bereitgestellten zusätzlichen Vorhersageinformationen zu erhalten. Ein Beispiel finden Sie in Kapitel 4 der Regressionsmodellierungsstrategien, deren Online-Notizen und R-Code unter biostat.mc.vanderbilt.edu/RmS#Materials
Frank Harrell

4
Prof. Harrell, bitte. Es ist offensichtlich, dass wir uns dem von zwei verschiedenen Seiten nähern. Sie aus der Statistik und ich bin aus dem maschinellen Lernen. Ich respektiere Sie, Ihre Forschung und Ihre Karriere, aber es steht Ihnen sehr frei, Ihre eigene Antwort zu formulieren und das OP entscheiden zu lassen, welche er für die bessere Antwort auf seine Frage hält. Ich bin sehr lernbegierig, also bringen Sie mir bitte Ihren Ansatz bei, aber lassen Sie mich Ihr Buch nicht kaufen.
pAt84

1
Ich möchte nur darauf hinweisen, dass die logistische Regression 1958 vom Statistiker DR Cox entwickelt wurde, Jahrzehnte bevor es maschinelles Lernen gab. Es ist auch wichtig zu beachten, dass die von Ihnen formulierte "Verlustfunktion" (besser vielleicht eine objektive Funktion genannt?) In keinerlei Beziehung zur Klassifizierung steht. Und was bedeutete für Sie, dass meine umfangreichen Notizen und Audiodateien, die online mit allen Informationen verfügbar sind, auf die ich mich bezog, nichts kosten?
Frank Harrell

2
Ich habe beide ersten Kommentare positiv bewertet, da beide gültige Punkte ansprechen. Spätere Kommentare ein bisschen wie ein kleiner Streit mit mir ...
usεr11852

4
PS Wenn Sie versuchen, dies klarer auszudrücken, führt die Optimierung der Vorhersage / Schätzung zu optimalen Entscheidungen, da die Nutzenfunktion in einem zweiten Schritt angewendet wird und nicht mit den Prädiktoren in Beziehung stehen darf. Durch die Optimierung der Vorhersage / Schätzung wird die Klassifizierung nicht optimiert und umgekehrt. Bei der Optimierung der Klassifizierung wird eine seltsame Dienstprogrammfunktion verwendet, die auf das jeweilige Dataset zugeschnitten ist und möglicherweise nicht für neue Datasets gilt. Leute, die die Klassifizierung wirklich optimieren möchten (nicht empfohlen), können eine Methode verwenden, die die Schätzung / Vorhersage insgesamt umgeht.
Frank Harrell
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.