Vollständige Offenlegung: Dies sind Hausaufgaben. Ich habe einen Link zum Datensatz hinzugefügt ( http://www.bertelsen.ca/R/logistic-regression.sav )
Mein Ziel ist es, die Vorhersage der Kreditausfälle in diesem Datensatz zu maximieren.
Jedes Modell, das ich mir bisher ausgedacht habe, sagt> 90% der Nichtausfälle voraus, aber <40% der Ausfälle, wodurch die Klassifizierungseffizienz insgesamt ~ 80% beträgt. Ich frage mich also, ob es Interaktionseffekte zwischen den Variablen gibt. Gibt es innerhalb einer logistischen Regression außer dem Testen jeder möglichen Kombination eine Möglichkeit, mögliche Interaktionseffekte zu identifizieren? Oder alternativ ein Weg, um die Effizienz der Klassifizierung von Säumigen zu steigern.
Ich stecke fest, alle Empfehlungen wären hilfreich für Ihre Wortwahl, R-Code oder SPSS-Syntax.
Meine primären Variablen sind im folgenden Histogramm und Streudiagramm dargestellt (mit Ausnahme der dichotomen Variablen).
Eine Beschreibung der primären Variablen:
age: Age in years
employ: Years with current employer
address: Years at current address
income: Household income in thousands
debtinc: Debt to income ratio (x100)
creddebt: Credit card debt in thousands
othdebt: Other debt in thousands
default: Previously defaulted (dichotomous, yes/no, 0/1)
ed: Level of education (No HS, HS, Some College, College, Post-grad)
Zusätzliche Variablen sind nur Transformationen der oben genannten. Ich habe auch versucht, einige der stetigen Variablen in kategoriale Variablen umzuwandeln und in das Modell zu implementieren.
Wenn Sie es schnell in R einfügen möchten, finden Sie es hier:
## R Code
df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", use.value.labels=T, to.data.frame=T)