Man transformiert die abhängige Variable, um eine ungefähre Symmetrie und Homoskedastizität der Residuen zu erreichen . Transformationen der unabhängigen Variablen haben einen anderen Zweck: Schließlich werden bei dieser Regression alle unabhängigen Werte als fest und nicht als zufällig angenommen, so dass "Normalität" nicht anwendbar ist. Das Hauptziel dieser Transformationen besteht darin, lineare Beziehungen mit der abhängigen Variablen (oder tatsächlich mit ihrem Logit) zu erzielen . (Dieses Ziel hat Vorrang vor Hilfsprogrammen wie dem Reduzieren von überschüssigem Leverageoder eine einfache Interpretation der Koeffizienten zu erreichen.) Diese Beziehungen sind eine Eigenschaft der Daten und der Phänomene, die sie hervorgebracht haben. Sie müssen also die Flexibilität haben, geeignete Wiederholungen für jede der Variablen getrennt von den anderen zu wählen. Insbesondere ist es nicht nur kein Problem, ein Protokoll, eine Wurzel und ein Reziproke zu verwenden, es ist eher üblich. Das Prinzip ist, dass es (normalerweise) nichts Besonderes gibt, wie die Daten ursprünglich ausgedrückt werden. Lassen Sie die Daten daher Wiederholungsausdrücke vorschlagen, die zu effektiven, genauen, nützlichen und (wenn möglich) theoretisch begründeten Modellen führen.
Die Histogramme - die die univariaten Verteilungen widerspiegeln - deuten oft auf eine anfängliche Transformation hin, sind jedoch nicht dispositiv. Begleiten Sie sie mit Streudiagramm-Matrizen, damit Sie die Beziehungen zwischen allen Variablen untersuchen können.
Transformationen wie denen ein positiver konstanter "Startwert" ist, können funktionieren - und können auch angezeigt werden, wenn kein Wert von Null ist - aber manchmal zerstören sie lineare Beziehungen. In diesem Fall empfiehlt es sich, zwei Variablen zu erstellen . Einer von ihnen ist gleich wenn ungleich Null ist und ansonsten alles ist; Es ist praktisch, den Standardwert auf Null zu setzen. Das andere, nennen wir es , ist ein Indikator dafür, ob Null ist: es ist gleich 1, wenn und andernfalls 0. Diese Begriffe tragen eine Summe beilog(x+c)cxlog(x)xzxxx=0
βlog(x)+β0zx
zur Schätzung. Wenn , ist so dass der zweite Term und nur noch übrig . Wenn , wurde " " auf Null gesetzt, während , wobei nur der Wert übrig . Somit schätzt den Effekt, wenn und andernfalls ist ; der Koeffizient von .x>0zx=0βlog(x)x=0log(x)zx=1β0β0x=0βlog(x)