Angenommen, ich erstelle ein logistisches Regressionsmodell, bei dem die abhängige Variable binär ist und die Werte oder 1 annehmen kann . Die unabhängigen Variablen seien x 1 , x 2 , . . . , x m - es gibt m unabhängige Variablen. Nehmen wir an, für die k- te unabhängige Variable zeigt die bivariate Analyse einen U-förmigen Trend - dh wenn ich x k in 20 gruppiere Bins, die jeweils ungefähr die gleiche Anzahl von Beobachtungen enthalten und die "schlechte Rate" für jeden Bin berechnen - # Beobachtungen mit y = 0 / Gesamtbeobachtungen in jedem Bin - dann erhalte ich eine U-förmige Kurve.
Meine Fragen sind:
- Kann ich direkt als Eingabe verwenden, während ich die Beta-Parameter schätze? Werden statistische Annahmen verletzt, die zu erheblichen Fehlern bei der Schätzung der Parameter führen können?
- Ist es notwendig, diese Variable durch eine Transformation (log, Quadrat, Produkt mit sich selbst usw.) zu "linearisieren"?