Eine Reihe von Quellen deuten darauf hin, dass die Diskretisierung (Kategorisierung) kontinuierlicher Variablen vor der statistischen Analyse viele negative Folgen hat (Referenzbeispiel [1] - [4] unten).
Umgekehrt [5] wird vermutet, dass einige Techniken des maschinellen Lernens bekanntermaßen bessere Ergebnisse liefern, wenn kontinuierliche Variablen diskretisiert werden (wobei auch zu beachten ist, dass überwachte Diskretisierungsmethoden eine bessere Leistung erbringen).
Ich bin gespannt, ob es aus statistischer Sicht allgemein akzeptierte Vorteile oder Rechtfertigungen für diese Praxis gibt.
Gibt es insbesondere eine Rechtfertigung für die Diskretisierung kontinuierlicher Variablen innerhalb einer GLM-Analyse?
[1] Royston P, Altman DG, Sauerbrei W. Dichotomisierung kontinuierlicher Prädiktoren in multipler Regression: eine schlechte Idee. Stat Med 2006; 25: 127 & ndash; 41
[2] Brunner J, Austin PC. Inflation der Typ I-Fehlerrate bei multipler Regression, wenn unabhängige Variablen mit Fehler gemessen werden. Das kanadische Journal of Statistics 2009; 37 (1): 33 & ndash; 46
[3] Irwin JR, McClelland GH. Negative Folgen der Dichotomisierung kontinuierlicher Prädiktorvariablen. Journal of Marketing Research 2003; 40: 366–371.
[4] Harrell Jr. FE. Probleme durch Kategorisierung kontinuierlicher Variablen. http://biostat.mc.vanderbilt.edu/twiki/bin/view/Main/CatContinuous, 2004. Zugriff am 6.9.2004
[5] Kotsiantis, S.; Kanellopoulos, D. "Diskretisierungstechniken: Eine aktuelle Umfrage". GESTS International Transactions on Computer Science and Engineering 32 (1): 47–58.