Bedeutung von Variablen für die logistische Regression

Ich habe es wahrscheinlich mit einem Problem zu tun, das wahrscheinlich schon hundert Mal gelöst wurde, aber ich bin mir nicht sicher, wo ich die Antwort finden kann.

Bei Verwendung der logistischen Regression werden bei vielen Funktionen und versuchen , einen binären kategorischen Wert vorherzusagen , , ich bin daran interessiert , einen Teil der Funktionen bei der Auswahl , die vorhersagt gut. $x_1,...,x_n$ $y$ $y$

Gibt es ein ähnliches Verfahren wie das Lasso? (Ich habe nur das Lasso gesehen, das für die lineare Regression verwendet wird.)

Zeigt die Betrachtung der Koeffizienten des angepassten Modells die Bedeutung der verschiedenen Merkmale an?

Bearbeiten - Erläuterungen Nachdem Sie einige der Antworten gesehen haben:

Wenn ich mich auf die Größe der angepassten Koeffizienten beziehe, meine ich diejenigen, die an normalisierte Merkmale (Mittelwert 0 und Varianz 1) angepasst sind. Andernfalls würde 1000x, wie @probabilityislogic hervorhob, weniger wichtig erscheinen als x.
Ich bin nicht daran interessiert, einfach die beste k-Teilmenge zu finden (wie @Davide angeboten hat), sondern die Bedeutung verschiedener Funktionen im Verhältnis zueinander abzuwägen. Beispielsweise könnte ein Merkmal "Alter" und das andere Merkmal "Alter> 30" sein. Ihre inkrementelle Bedeutung mag gering sein, aber beide mögen wichtig sein.

machine-learning logistic classification

— Guy Adini
quelle

Antworten:

Die Antwort von DWin bietet die Antwort, aber wenig Einsicht, daher hielt ich es für nützlich, eine Erklärung abzugeben.

Wenn Sie zwei Klassen haben, versuchen Sie grundsätzlich, zu schätzen . Dies ist alles, was Sie benötigen, und das logistische Regressionsmodell setzt Folgendes voraus: $p=P(y_i=1|X=x_i)$

$log \frac{p}{1-p} = log \frac{P(y_i=1|X=x_i)}{P(y_i=0|X=x_i)}=\beta _0 + \beta _1 ^T x_i$

$j$ $p$ $\frac{\partial p}{\partial x_{ij}}$

Nach einer kleinen Transformation können Sie das sehen

$p=\frac{e^{\beta _0 + \beta _1 ^T x_i}}{1+e^{\beta _0 + \beta _1 ^T x_i}}$ .

Sobald Sie Ihre Ableitung berechnet haben, werden Sie das sehen

$\frac{\partial p}{\partial x_{ij}} = \beta_j e^{\beta_0 + \beta _1 ^T x_i}$

Dies hängt eindeutig vom Wert aller anderen Variablen ab. Sie können jedoch beobachten, dass das ZEICHEN des Koeffizienten so interpretiert werden kann, wie Sie es möchten: Wenn es negativ ist, verringert dieses Merkmal die Wahrscheinlichkeit p.

$\beta$

$\hat{\beta^r} = \frac{\hat{\beta}}{\hat{\beta} + \lambda}$

Wie Sie sehen können, kann dies das Vorzeichen Ihres Koeffizienten ändern, sodass selbst diese Interpretation auseinanderbricht.

— marcin_j
quelle

Tippfehler im Nenner von Gleichung 1?

— Fernando

Die Antwort auf Ihre letzte Frage ist ein flaches NEIN. Die Größe der Koeffizienten ist in keiner Weise ein Maß für die Bedeutung. Das Lasso kann zur logistischen Regression verwendet werden. Sie müssen das Gebiet genauer studieren. Die Methoden, die Sie studieren müssen, beinhalten "bestrafte" Methoden. Wenn Sie nach Erkennungsmethoden suchen, die "schattierte" Prädiktoren aufdecken, ein Begriff, der möglicherweise irgendwo definiert ist, aber nicht allgemein verwendet wird, müssen Sie nach Methoden suchen, die Interaktionen und nichtlineare Strukturen innerhalb des Prädiktorraums und des Prädiktors untersuchen Ergebnisverknüpfung zu diesem Raum. In Frank Harrells Text "Regression Modeling Strategies" werden diese Probleme und Methoden ausführlich diskutiert.

Die Rückwärtsauswahlstrategie liefert keine gültigen Ergebnisse (obwohl sie Ergebnisse liefert). Wenn Sie sich einen Fall von 20 zufälligen Prädiktoren für 100 Ereignisse angesehen haben, werden Sie wahrscheinlich 2 oder 3 finden, die mit einem Rückwärtsauswahlverfahren ausgewählt werden. Die Verbreitung der Rückwärtsauswahl in der realen Welt spiegelt nicht sorgfältige statistische Überlegungen wider, sondern vielmehr die einfache Verfügbarkeit in SAS und SPSS und die mangelnde Komplexität der Benutzerbasis dieser Produkte. Die R-Benutzerbasis hat es schwerer, auf solche Methoden und Benutzer zuzugreifen, die Anforderungen auf den Mailinglisten veröffentlichen, und SO werden sie im Allgemeinen über die Probleme informiert, die mit Rückwärts- (oder Vorwärts-) Auswahlmethoden verbunden sind.

— DWin
quelle

Ich weiß, dass ich sollte - ich würde mich sehr über einige Hinweise freuen, wo ich anfangen soll.

— Guy Adini

x_{n + 1} = 1000 x_{1}

$x_{n+1}=1000x_{1}$

x_{n + 1}

$x_{n+1}$

1000

$1000$

x_{1}

$x_{1}$

Bitte beachten Sie meine Kommentare oben (unter Verwendung normalisierter Funktionen). Vielen Dank.

— Guy Adini

Vielen Dank. Ich werde das untersuchen. Können Sie einige gebräuchliche Algorithmen nennen, die bei dieser "Untersuchung von Wechselwirkungen und nichtlinearen Strukturen innerhalb des Prädiktorraums" verwendet werden, oder handelt es sich um eine sehr fallweise Situation?

— Guy Adini

Sie können Regressionssplines verwenden, um nach Nichtlinearität zu suchen, und Spline-Begriffe können "gekreuzt" werden, wodurch Effekte identifiziert werden können, die auf einen Bereich eines 2D-Vorhersageraums beschränkt sind. Sie können auch lokale Regressionsmethoden verwenden. In R ist die am häufigsten verwendete lokale Regressionsmethode wahrscheinlich das 'mgcv'-Paket, aber das ältere' locfit'-Paket ist noch verfügbar.

— DWin

-4

Englisch ist nicht meine Muttersprache, daher habe ich möglicherweise nicht verstanden, was Ihr Problem ist. Wenn Sie jedoch das beste Modell finden müssen, können Sie versuchen, ein Rückwärtsverfahren zu verwenden (und schließlich Interaktionen hinzuzufügen), beginnend mit einem Modell mit allen Kovariaten. Sie können dann sowohl die Residuen_vs_predicted-Werte als auch die qq-Plot-Diagramme betrachten, um zu überprüfen, ob das Modell Ihr Phänomen gut beschreibt

— Davide
quelle

Vielen Dank! Ich denke, was Sie vorschlagen, ist das schrittweise Hinzufügen der am meisten korrelierten Funktion. Es ist sinnvoll, hilft mir aber nicht zu verstehen, "um wie viel" Merkmal A wichtiger ist als Merkmal B. Nehmen wir beispielsweise an, ich habe ein Merkmal x und ein anderes Merkmal x + <kleines Rauschen>. Dann sind beide tatsächlich nützliche Funktionen, aber eine wird von der anderen beschattet. Ich möchte eine Methode, die auch zeigt, dass x + <Rauschen> wichtig ist.

— Guy Adini

Nein, eine Rückwärtsprozedur beginnt mit einem Modell mit allen Kovariaten und entfernt dann Schritt für Schritt eine Kovariate (deren Koeffizient nicht signifikant ist) (bis Sie normalerweise ein Modell mit nur signifikanten Koeffizienten haben). Ich denke, es gibt ausgefeiltere Wege, um das gleiche Ziel zu erreichen, aber ich bin nur ein Bachelor-Student!

— Davide