Theoretisch ist die Skala Ihrer Eingaben für die logistische Regression irrelevant. Sie können "theoretisch" mit 10 10 10 10 multiplizieren und die Schätzung für wird entsprechend . Aufgrund der Invarianzeigenschaft von MLEs ist sie mal kleiner als das ursprüngliche .X.11010101010 - 10 10 10 β 1β110- 101010β1
Aber versuchen Sie, R dazu zu bringen, die oben angepasste Regression durchzuführen - sie wird ausflippen (wird nicht einmal in der Lage sein, die X-Matrix zu konstruieren).
Dies ist ein bisschen wie der Cholesky-Zerlegungsalgorithmus zur Berechnung einer Matrixquadratwurzel. Ja, in der exakten Mathematik beinhaltet die Cholesky-Zerlegung niemals die Quadratwurzel der negativen Zahl, aber Rundungsfehler und Gleitkomma-Arithmetik können zu solchen Fällen führen.
Sie können eine beliebige lineare Kombination Ihrer X-Variablen verwenden, und die vorhergesagten Werte sind dieselben.
Wenn wir den Rat von @ simone befolgen und die neu skalierten X-Variablen zum Anpassen des Modells verwenden . Wir können jedoch die Invarianzeigenschaft von MLE verwenden, um die gewünschte Beta zu erhalten, nachdem wir numerisch stabile Eingabe-X-Variablen verwendet haben. Es kann sein, dass die Beta auf der ursprünglichen Skala leichter zu interpretieren ist als die Beta auf der transformierten von @ simone. Wir haben also das transformierte ( te Beobachtung für die te Variable), nennen es , definiert durch: i j ˜ x i jxi jichjx~i j
x~i j= ajxi j+ bj
Die Auswahl von @ simone entspricht und (unter Verwendung von , um die Statistik ter Ordnung der ten Variablen zu bezeichnen, dh ). Die und kann gedacht werden als Algorithmus - Parameter ( der gewählte Algorithmus stabiler und / oder schneller laufen zu machen). Wir passen dann eine logistische Regression mit an und erhalten Parameterschätzungen . Also schreiben wir den linearen Prädiktor aus: bj= ¯ x jeinj= 1x[ N.] j- x[ 1 ] jbj= x¯¯¯jx[ N.] j- x[ 1 ] jx[ i ] jichjx[ N.] j≥ x[ N.- 1 ] j≥ ⋯ ≥ x[ 1 ] jeinjbjx~i jβ~j
zich= β~0+ ∑jx~i jβ~j
Ersetzen Sie nun die Gleichung und Sie erhalten:x~i j
zich= β~0+ ∑j( ajxi j+ bj) β~j= β0+ ∑jxi jβj
Wobei
β0= β~0+ ∑jbjβ~jβj= ajβ~j
Sie können sehen, dass die Parameter theoretisch überhaupt keinen Unterschied machen: Jede Wahl (außer ) führt zu derselben Wahrscheinlichkeit, da der lineare Prädiktor unverändert bleibt. Es funktioniert sogar für kompliziertere lineare Transformationen, z. B. die Darstellung der X-Matrix durch ihre Hauptkomponenten (die Rotationen beinhalten). So können wir die Ergebnisse zurücktransformieren, um die Betas zu erhalten, die wir für die Interpretation benötigen.einj, bjeinj= 0