Haben logistische Regressionskoeffizienten eine Bedeutung?


14

Ich habe ein Problem mit der binären Klassifizierung aufgrund verschiedener Merkmale. Haben die Koeffizienten einer (regularisierten) logistischen Regression eine interpretierbare Bedeutung?

Ich dachte, sie könnten die Größe des Einflusses anzeigen, vorausgesetzt, die Funktionen wurden zuvor normalisiert. Bei meinem Problem scheinen die Koeffizienten jedoch empfindlich von den von mir ausgewählten Merkmalen abzuhängen. Sogar das Vorzeichen der Koeffizienten ändert sich mit verschiedenen als Eingabe ausgewählten Feature-Sets.

Ist es sinnvoll, den Wert der Koeffizienten zu untersuchen und wie lassen sich die aussagekräftigsten Koeffizienten richtig ermitteln und ihre Bedeutung in Worten ausdrücken ? Sind einige angepasste Modelle und deren Vorzeichen der Koeffizienten falsch - auch wenn sie irgendwie zu den Daten passen?

(Die höchste Korrelation, die ich zwischen Features habe, ist nur 0,25, aber das spielt sicherlich eine Rolle?)


Können Sie klarstellen, was Sie unter reguliert verstehen? Haben Sie eine L2-Strafe und wenn ja, haben Sie nach dem optimalen Faktor gesucht, z. B. durch Kreuzvalidierung?
Seanv507

Ja, ich erlaube L2-Vertragsstrafen für die Koeffizienten. Ich habe nach dem optimalen Regularisierungsfaktor gesucht, aber die Feature-Auswahl (wie die Vorauswahl) noch nicht verwendet. Es macht mich jedoch unsicher, da die Koeffizienten so empfindlich von der Auswahl der Merkmale abhängen, die ich einbeziehe. Angenommen, jedes Merkmal hat entweder positive oder negative Auswirkungen auf die positive Klasse. Wie kann ich ihre Stärke und Richtung bestimmen?
Gerenuk

Antworten:


14

Die Koeffizienten aus der Ausgabe haben eine Bedeutung, obwohl sie für die meisten Menschen und ganz sicher nicht für mich sehr intuitiv sind. Das ist der Grund, warum die Leute sie in Quotenverhältnisse ändern. Das Protokoll der Odds Ratio ist jedoch der Koeffizient. äquivalent sind die potenzierten Koeffizienten die Gewinnchancenverhältnisse.

Die Koeffizienten eignen sich am besten zum Einfügen in Formeln, die die vorhergesagten Wahrscheinlichkeiten für die einzelnen Ebenen der abhängigen Variablen angeben.

zB in R

library("MASS")
data(menarche)
glm.out = glm(cbind(Menarche, Total-Menarche) ~ Age,
                family=binomial(logit), data=menarche)

summary(glm.out)

Die Parameterschätzung für das Alter beträgt 1,64. Was bedeutet das? Nun, wenn Sie es mit der Parameterschätzung für den Achsenabschnitt (-21,24) kombinieren, können Sie eine Formel erhalten, die die Wahrscheinlichkeit von Menarche vorhersagt:

P(M)=11+e21,24-1,64einGe

e1,64=5.16 das bedeutet, dass die Chancen für Menarche für jedes weitere Jahr des Alters 5,16-mal so hoch sind (nicht genau 5,16-mal so wahrscheinlich, aber diese Interpretation wird oft verwendet).


4

Eine direkte Interpretation der Koeffizienten ist schwierig und kann irreführend sein. Sie haben keine Garantie dafür, wie Gewichte zwischen den Variablen zugewiesen werden.

Ein kurzes Beispiel, ähnlich der von Ihnen beschriebenen Situation: Ich habe an einem Modell für die Interaktion von Benutzern mit einer Website gearbeitet. Dieses Modell enthielt zwei Variablen, die die Anzahl der "Klicks" während der ersten Stunde und während der zweiten Stunde einer Benutzersitzung darstellen. Diese Variablen sind stark miteinander korreliert. Wenn beide Koeffizienten für diese Variablen positiv wären, könnten wir uns leicht irreführen und glauben, dass ein höherer Koeffizient möglicherweise eine "höhere" Bedeutung anzeigt. Allerdings durch ein Hinzufügen / Entfernen andererVariablen Wir könnten leicht zu einem Modell kommen, bei dem die erste Variable ein positives Vorzeichen und die andere ein negatives hatte. Die Schlussfolgerung war, dass wir aufgrund einiger signifikanter (wenn auch geringer) Korrelationen zwischen den meisten Paaren der verfügbaren Variablen keine sichere Aussage über die Wichtigkeit der Variablen anhand der Koeffizienten treffen konnten (froh, von der Community zu lernen, wenn diese Interpretation ist richtig).

Wenn Sie ein Modell erhalten möchten, bei dem es einfacher ist, eine Idee zu interpretieren, sollten Sie Lasso verwenden (Minimierung der L1-Norm). Das führt zu spärlichen Lösungen, wenn Variablen weniger miteinander korrelieren. Dieser Ansatz würde jedoch nicht einfach beide Variablen des vorherigen Beispiels auswählen - eine wäre nullgewichtet.

Wenn Sie nur die Wichtigkeit bestimmter Variablen oder Variablensätze beurteilen möchten, würde ich die Verwendung eines direkten Ansatzes zur Featureauswahl empfehlen. Solche Ansätze führen zu viel aussagekräftigeren Einsichten und sogar zu globalen Einstufungen der Wichtigkeit der Variablen auf der Grundlage einiger Kriterien.


0

Die Koeffizienten haben mit Sicherheit eine Bedeutung. In einigen Softwarepaketen kann das Modell auf zwei Arten gesteuert werden, um zwei Arten von Koeffizienten zu erzeugen. In Stata kann beispielsweise entweder der Befehl Logistic oder der Befehl logit verwendet werden. Bei der Verwendung eines Modells werden traditionelle Koeffizienten angegeben, während bei der Verwendung des anderen Modells Quotenverhältnisse angegeben werden.

Sie werden vielleicht feststellen, dass einer für Sie viel aussagekräftiger ist als der andere.

Zu Ihrer Frage "... Koeffizienten scheinen von der Empfindlichkeit abzuhängen ...".

Wollen Sie damit sagen, dass die Ergebnisse von den Variablen abhängen, die Sie in das Modell eingegeben haben?

Wenn ja, ist dies eine Tatsache, wenn Regressionsanalysen durchgeführt werden. Der Grund dafür ist, dass die Regressionsanalyse eine Reihe von Zahlen betrachtet und diese auf automatisierte Weise zusammenfasst.

Die Ergebnisse hängen davon ab, in welcher Beziehung die Variablen zueinander stehen und welche Variablen nicht gemessen werden. Es ist ebenso eine Kunst wie eine Wissenschaft.

Wenn das Modell im Vergleich zur Stichprobengröße zu viele Prädiktoren hat, können die Vorzeichen auf verrückte Weise umkehren. Ich denke, dies bedeutet, dass das Modell Variablen verwendet, die einen geringen Effekt haben, um die Schätzungen dieser Variablen anzupassen das hat einen großen Effekt (wie ein kleiner Lautstärkeregler, um kleine Kalibrierungen durchzuführen). Wenn dies passiert, neige ich dazu, den Variablen mit kleinen Effekten nicht zu vertrauen.

Andererseits kann es sein, dass sich die Zeichen beim Hinzufügen neuer Prädiktoren zunächst ändern, weil Sie der kausalen Wahrheit näher kommen.

Stellen wir uns zum Beispiel vor, dass Grönlandbrand zwar gesundheitsschädlich ist, das Einkommen aber gesundheitsschädlich. Wenn das Einkommen weggelassen wird und mehr Reiche Brandy trinken, kann das Modell den weggelassenen Einkommenseinfluss "aufgreifen" und "sagen", dass der Alkohol gut für Ihre Gesundheit ist.

Haben Sie keinen Zweifel, es ist eine Tatsache des Lebens, dass Koeffizienten von den anderen Variablen abhängen, die enthalten sind. Um mehr zu erfahren, schauen Sie in "ausgelassene variable Verzerrung" und "falsche Beziehung". Wenn Sie noch nie auf diese Ideen gestoßen sind, versuchen Sie, eine Einführung in Statistikkurse zu finden, die Ihren Anforderungen entsprechen. Dies kann einen großen Unterschied bei der Modellierung bewirken.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.