Meine Frage ist, ob wir den Datensatz standardisieren müssen, um sicherzustellen, dass alle Variablen den gleichen Maßstab zwischen [0,1] haben, bevor die logistische Regression angepasst wird. Die Formel lautet:
Mein Datensatz enthält 2 Variablen, sie beschreiben dasselbe für zwei Kanäle, aber die Lautstärke ist unterschiedlich. Angenommen, es ist die Anzahl der Kundenbesuche in zwei Geschäften. Hier ist angegeben, ob ein Kunde einkauft. Weil ein Kunde beide Geschäfte oder zweimal das erste Geschäft, einmal das zweite Geschäft, besuchen kann, bevor er einen Kauf tätigt. Die Gesamtzahl der Kundenbesuche für das erste Geschäft ist jedoch zehnmal höher als für das zweite Geschäft. Wenn ich diese logistische Regression ohne Standardisierung einsetze coef(store1)=37, coef(store2)=13
; wenn ich die Daten standardisiere, dann coef(store1)=133, coef(store2)=11
. Etwas wie das. Welcher Ansatz ist sinnvoller?
Was ist, wenn ich ein Entscheidungsbaummodell anpasse? Ich weiß, dass Baumstrukturmodelle keine Standardisierung benötigen, da das Modell sie irgendwie anpassen wird. Aber fragen Sie uns alle.
C
ändert. Sie müssen also C
nach der Standardisierung der Daten auswählen .