Was sind die Korrelationen zwischen den unabhängigen Variablen? Dies ist für die reine Vorhersage weniger wichtig, aber wenn Sie einige Inferenzinformationen erhalten möchten, ist es wichtig, dass die unabhängigen Variablen ziemlich unkorreliert sind. Wenn Sie die logistische Regression in einem Geschäftsumfeld verwenden, sind in der Regel sowohl Inferenzinformationen zu den verwendeten Variablen als auch eine gute Vorhersage das, wonach Stakeholder suchen.
Ein weiterer guter Grund, Variablen zu entfernen, ist die Modellsparsamkeit. Einige Gründe hierfür sind interne Überprüfungszwecke, gesetzliche Bestimmungen und eine einfache Implementierung. Dies führt dazu, dass es äußerst wünschenswert ist, den kleinsten Satz von Variablen zu finden, die gute Geschäftsinformationen und gute Vorhersagen liefern. Wenn Sie beispielsweise ein Kreditmodell entwickeln, unterliegt jede Variable einer rechtlichen Überprüfung, jede Variable muss verfügbar sein und sofort Werte zurückgeben, wenn sie zur Bewertung des Kredits aufgerufen wird, und die Stakeholder (die sich normalerweise nicht mit Modellbildung auskennen) tendieren dazu komplizierte Modelle, die mit Variablen geladen sind, nicht betrachten wollen.
Es kann auch hilfreich sein, eine zufällige Gesamtstruktur auszuprobieren, um sich ein Bild von der Bedeutung von Variablen zu machen und die Vorhersagekraft mit und ohne alle Variablen zu überprüfen.
Schließlich sollten Sie einen guten Grund haben, eine Variable zu transformieren. Wenn Sie jede Transformation gegen eine Variable werfen, bis Sie eine finden, die das gewünschte Ergebnis liefert, können Sie ein Überanpassungsmodell erhalten, das bei neuen Daten eine schlechte Leistung erbringt.