Logistische Regression mit spärlichen Prädiktorvariablen


8

Ich modelliere derzeit einige Daten mithilfe einer binären logistischen Regression. Die abhängige Variable hat eine gute Anzahl positiver und negativer Fälle - sie ist nicht spärlich. Ich habe auch ein großes Trainingsset (> 100.000) und die Anzahl der Haupteffekte, an denen ich interessiert bin, beträgt ungefähr 15, sodass ich mir keine Sorgen um ein Problem mache.

Was mich beunruhigt, ist, dass viele meiner Prädiktorvariablen, wenn sie stetig sind, die meiste Zeit Null sind und wenn sie nominal sind, die meiste Zeit Null sind. Wenn diese spärlichen Prädiktorvariablen einen Wert> 0 (oder nicht null) annehmen, weiß ich aufgrund der Vertrautheit mit den Daten, dass sie für die Vorhersage meiner positiven Fälle von Bedeutung sein sollten. Ich habe versucht, nach Informationen zu suchen, wie sich die Spärlichkeit dieser Prädiktoren auf mein Modell auswirken könnte.

Insbesondere möchte ich nicht, dass der Effekt einer spärlichen, aber wichtigen Variablen nicht in mein Modell aufgenommen wird, wenn es eine andere Prädiktorvariable gibt, die nicht spärlich und korreliert ist, aber tatsächlich die positiven Fälle nicht so gut vorhersagt .

Um ein Beispiel zu veranschaulichen: Wenn ich versuchen wollte zu modellieren, ob jemand an einer bestimmten Ivy-League-Universität akzeptiert wurde oder nicht, und meine drei Prädiktoren waren SAT-Score, GPA und "Spende> 1 Million Dollar" als Binärdatei, habe ich Grund zu glauben, dass "Spende> 1 Million Dollar", wenn es wahr ist, die Akzeptanz sehr vorhersagen wird - mehr als ein hoher GPA oder SAT -, aber es ist auch sehr spärlich. Wie wird sich dies, wenn überhaupt, auf mein Logistikmodell auswirken und muss ich hierfür Anpassungen vornehmen? Würde ein anderer Modelltyp (z. B. Entscheidungsbaum, zufällige Gesamtstruktur usw.) dies besser handhaben?

Antworten:


2

1) Datenmangel kann durch L1-Regularisierung behoben werden.

2) Sie können auch versuchen, Unter- und Überabtastungen von Daten vorzunehmen (vergessen Sie nicht, das Ergebnis anhand der zuvor verwendeten Stichprobenration zu kalibrieren).

3) Ihr Modell kümmert sich auch um die Bedeutung verschiedener Variablen.


0

Wenn Ihre Daten mit einer gewissen Unsicherheit verbunden sind, können Sie ein Konfidenzniveau für eine spärliche Prädiktorvariable erstellen. In Ihrem Beispiel eine kategoriale Variable, bei der:

0 = sicherlich nicht gespendet> 1 Million Dollar

1 = möglicherweise gespendet> 1 Million Dollar

2 = sicherlich gespendet> 1 Million Dollar

Das hat in der Vergangenheit für mich gut funktioniert

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.