Wann werden unbedeutende Variablen entfernt?


9

Ich arbeite am logistischen Regressionsmodell. Ich habe die Zusammenfassung des Modells überprüft, das auf 5 unabhängigen Variablen basiert, von denen eine mit einem P-Wert von 0,74 nicht signifikant ist. Ich möchte wissen, ob wir die Variable direkt entfernen oder ob es eine andere Möglichkeit gibt, ihre Bedeutung zu überprüfen ?

Ein Senior von mir schlug vor, eine logarithmische Transformation der unbedeutenden Variablen durchzuführen und dann nach Korrelation zu suchen. Wird dies für die Überprüfung der Bedeutung von Bedeutung sein?

model <- glm(Buy ~ a_score + b_score+ c_score+lb+p, data = history, family = binomial)

Alle Variablen sind mit 2 oder 3 Sternen signifikant, mit Ausnahme von a_score, das nicht signifikant angezeigt wird.


Was ist das Ziel Ihrer Modellbauübung? Interessieren Sie sich für Inferenzstatistiken, z. B. für einen wissenschaftlichen Artikel, oder für Vorhersagen?
Stephan Kolassa

Antworten:


40

Lassen Sie mich zunächst Folgendes fragen: Was ist das Ziel des Modells? Wenn Sie nur vorhersagen möchten, ob ein Kunde kaufen wird, sind statistische Hypothesentests nicht Ihr Hauptanliegen. Stattdessen sollten Sie Ihr Modell extern über ein Validierungs- / Testverfahren für unsichtbare Daten validieren.

Wenn Sie stattdessen untersuchen möchten, welche Faktoren zur Kaufwahrscheinlichkeit eines Kunden beitragen, müssen Sie keine Variablen entfernen, die die Null nicht ablehnen (insbesondere nicht schrittweise). Vermutlich haben Sie eine Variable in Ihr Modell aufgenommen, weil Sie (aus früheren Erfahrungen oder Expertenmeinungen) dachten, dass sie eine wichtige Rolle bei der Entscheidung eines Kunden spielt, ob er kauft. Dass die Variable die Null nicht zurückweisen konnte, macht Ihr Modell nicht zu einem schlechten Modell. Dies bedeutet lediglich, dass Ihre Stichprobe keinen Effekt dieser Variablen festgestellt hat. Das ist vollkommen in Ordnung.


3
Upvoted für hervorragende Antwort.
James Phillips

7
+1 Das Entfernen von Prädiktoren, die möglicherweise mit dem Ergebnis zusammenhängen (auch wenn sie "unbedeutend" sind), ist bei der logistischen Regression aufgrund der inhärenten Verzerrung durch ausgelassene Variablen schwierig . Das Entfernen eines Prädiktors in Bezug auf das Ergebnis kann zu Verzerrungen bei den Schätzungen der Koeffizienten der beibehaltenen Prädiktoren führen, selbst wenn die beibehaltenen Prädiktoren nicht mit dem entfernten Prädiktor korrelieren.
EdM

3
Dies ist in der Tat eine sehr klare Antwort.
Gented

2

Werfen Sie einen Blick auf die Hilfeseiten für step(), drop1()und add1(). Diese helfen Ihnen beim Hinzufügen / Entfernen von Variablen basierend auf AIC. Alle diese Methoden sind jedoch in ihrer Pfadabhängigkeit etwas fehlerhaft. Ein besserer Weg wäre, die Funktionen im bestraften oder glmnet- Paket zu verwenden, um eine Lasso-Regression durchzuführen.


-1

Was sind die Korrelationen zwischen den unabhängigen Variablen? Dies ist für die reine Vorhersage weniger wichtig, aber wenn Sie einige Inferenzinformationen erhalten möchten, ist es wichtig, dass die unabhängigen Variablen ziemlich unkorreliert sind. Wenn Sie die logistische Regression in einem Geschäftsumfeld verwenden, sind in der Regel sowohl Inferenzinformationen zu den verwendeten Variablen als auch eine gute Vorhersage das, wonach Stakeholder suchen.

Ein weiterer guter Grund, Variablen zu entfernen, ist die Modellsparsamkeit. Einige Gründe hierfür sind interne Überprüfungszwecke, gesetzliche Bestimmungen und eine einfache Implementierung. Dies führt dazu, dass es äußerst wünschenswert ist, den kleinsten Satz von Variablen zu finden, die gute Geschäftsinformationen und gute Vorhersagen liefern. Wenn Sie beispielsweise ein Kreditmodell entwickeln, unterliegt jede Variable einer rechtlichen Überprüfung, jede Variable muss verfügbar sein und sofort Werte zurückgeben, wenn sie zur Bewertung des Kredits aufgerufen wird, und die Stakeholder (die sich normalerweise nicht mit Modellbildung auskennen) tendieren dazu komplizierte Modelle, die mit Variablen geladen sind, nicht betrachten wollen.

Es kann auch hilfreich sein, eine zufällige Gesamtstruktur auszuprobieren, um sich ein Bild von der Bedeutung von Variablen zu machen und die Vorhersagekraft mit und ohne alle Variablen zu überprüfen.

Schließlich sollten Sie einen guten Grund haben, eine Variable zu transformieren. Wenn Sie jede Transformation gegen eine Variable werfen, bis Sie eine finden, die das gewünschte Ergebnis liefert, können Sie ein Überanpassungsmodell erhalten, das bei neuen Daten eine schlechte Leistung erbringt.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.