Ich habe große Umfragedaten, eine binäre Ergebnisvariable und viele erklärende Variablen, einschließlich binärer und kontinuierlicher. Ich baue Modellsätze (experimentiere sowohl mit GLM als auch mit gemischtem GLM) und verwende informationstheoretische Ansätze, um das Topmodell auszuwählen. Ich habe die Erklärungen (sowohl kontinuierlich als auch kategorisch) sorgfältig auf Korrelationen untersucht und verwende nur diejenigen im selben Modell, deren Pearson- oder Phicorr-Koeffizient kleiner als 0,3 ist. Ich möchte allen meinen kontinuierlichen Variablen eine faire Chance geben, um das Topmodell zu konkurrieren. Nach meiner Erfahrung verbessert die Transformation derjenigen, die es benötigen, basierend auf dem Versatz das Modell, an dem sie teilnehmen (niedrigerer AIC).
Meine erste Frage lautet: Ist dies eine Verbesserung, weil die Transformation die Linearität mit dem Logit verbessert? Oder verbessert die Korrektur des Versatzes das Gleichgewicht der erklärenden Variablen irgendwie, indem die Daten symmetrischer gemacht werden? Ich wünschte, ich hätte die mathematischen Gründe dafür verstanden, aber im Moment wäre es großartig, wenn jemand dies in einfachen Worten erklären könnte. Wenn Sie Referenzen haben, die ich verwenden könnte, würde ich es wirklich schätzen.
Viele Internetseiten sagen, dass Sie die Variablen nicht transformieren sollten, da Normalität keine Annahme bei der binären logistischen Regression ist. Ich habe jedoch das Gefühl, dass ich einige Variablen im Vergleich zu anderen benachteilige, wenn ich meine Variablen nicht transformiere. Dies kann sich auf das Topmodell auswirken und die Inferenz ändern (normalerweise nicht, in einigen Datensätzen jedoch). Einige meiner Variablen weisen eine bessere Leistung auf, wenn das Protokoll transformiert wird, andere im Quadrat (unterschiedliche Richtung des Versatzes) und andere nicht transformiert.
Könnte mir jemand eine Richtlinie geben, worauf ich bei der Transformation erklärender Variablen für die logistische Regression achten sollte, und wenn nicht, warum nicht?