Was ist die Rechtfertigung für eine unbeaufsichtigte Diskretisierung kontinuierlicher Variablen?

Eine Reihe von Quellen deuten darauf hin, dass die Diskretisierung (Kategorisierung) kontinuierlicher Variablen vor der statistischen Analyse viele negative Folgen hat (Referenzbeispiel [1] - [4] unten).

Umgekehrt [5] wird vermutet, dass einige Techniken des maschinellen Lernens bekanntermaßen bessere Ergebnisse liefern, wenn kontinuierliche Variablen diskretisiert werden (wobei auch zu beachten ist, dass überwachte Diskretisierungsmethoden eine bessere Leistung erbringen).

Ich bin gespannt, ob es aus statistischer Sicht allgemein akzeptierte Vorteile oder Rechtfertigungen für diese Praxis gibt.

Gibt es insbesondere eine Rechtfertigung für die Diskretisierung kontinuierlicher Variablen innerhalb einer GLM-Analyse?

[1] Royston P, Altman DG, Sauerbrei W. Dichotomisierung kontinuierlicher Prädiktoren in multipler Regression: eine schlechte Idee. Stat Med 2006; 25: 127 & ndash; 41

[2] Brunner J, Austin PC. Inflation der Typ I-Fehlerrate bei multipler Regression, wenn unabhängige Variablen mit Fehler gemessen werden. Das kanadische Journal of Statistics 2009; 37 (1): 33 & ndash; 46

[3] Irwin JR, McClelland GH. Negative Folgen der Dichotomisierung kontinuierlicher Prädiktorvariablen. Journal of Marketing Research 2003; 40: 366–371.

[4] Harrell Jr. FE. Probleme durch Kategorisierung kontinuierlicher Variablen. http://biostat.mc.vanderbilt.edu/twiki/bin/view/Main/CatContinuous, 2004. Zugriff am 6.9.2004

[5] Kotsiantis, S.; Kanellopoulos, D. "Diskretisierungstechniken: Eine aktuelle Umfrage". GESTS International Transactions on Computer Science and Engineering 32 (1): 47–58.

— Michael
quelle

Diskretisieren im Vergleich zu was sonst? Wenn die Alternative darin besteht, die Beziehung zwischen Prädiktor und Antwort als linear zu behandeln, ist es nicht überraschend, dass die Diskretisierung manchmal eine bessere Anpassung ergibt. Siehe hier .

— Scortchi - Monica wieder einsetzen

Es könnte sich auf verschiedene Kriterien beziehen, was "besser" ist.

— Glen_b -Reinstate Monica

Antworten:

Der Zweck statistischer Modelle besteht darin, eine unbekannte, zugrunde liegende Realität zu modellieren (zu approximieren). Wenn Sie etwas diskretisieren, das von Natur aus kontinuierlich ist, sagen Sie, dass alle Antworten für einen Bereich von Prädiktorvariablen genau gleich sind, dann gibt es einen plötzlichen Sprung für das nächste Intervall. Glauben Sie wirklich, dass die natürliche Welt einen großen Unterschied in der Reaktion zwischen x-Werten von 9.999 und 10.001 aufweist, während zwischen 9.001 und 9.999 kein Unterschied besteht (vorausgesetzt, eines der Intervalle ist 9-10)? Ich kann mir keine natürlichen Prozesse vorstellen, die ich für plausibel halten würde.

Nun gibt es viele natürliche Prozesse, die nicht linear ablaufen. Die Änderung des Prädiktors von 8 auf 9 kann eine ganz andere Änderung der Antwort bewirken als eine Änderung von 10 auf 11. Daher kann ein diskretisierter Prädiktor besser passen als a lineare Beziehung, aber das liegt daran, dass mehr Freiheitsgrade erlaubt sind. Es gibt jedoch auch andere Möglichkeiten, zusätzliche Freiheitsgrade wie Polynome oder Splines zuzulassen, und diese Optionen ermöglichen es uns, zu bestrafen, um ein bestimmtes Maß an Glätte zu erreichen und etwas beizubehalten, das eine bessere Annäherung an den zugrunde liegenden natürlichen Prozess darstellt.

— Greg Snow
quelle

Bearbeiten: Aufgrund des Trends anderer Antworten, die ich sehe, ein kurzer Haftungsausschluss: Meine Antwort basiert auf einer Perspektive des maschinellen Lernens und nicht auf einer statistischen Modellierung.

Einige Modelle, wie z. B. Naive Bayes, funktionieren nicht mit kontinuierlichen Funktionen. Die Diskretisierung der Funktionen kann dazu beitragen, dass sie (viel) besser funktionieren. Im Allgemeinen werden Modelle, die sich nicht auf den "numerischen" Charakter des Features stützen (Entscheidungsbäume fallen mir ein), nicht zu stark beeinflusst, solange die Diskretisierung nicht zu brutal ist. Einige andere Modelle weisen jedoch eine erhebliche Underperformance auf, wenn die Kritik zu wichtig ist. Zum Beispiel werden GLMs absolut keinen Nutzen aus dem Prozess ziehen.
In einigen Fällen, wenn Speicher- / Verarbeitungszeit zu begrenzenden Faktoren werden, ermöglicht die Feature-Diskretisierung die Aggregation eines Datensatzes, wodurch dessen Größe und Speicher- / Rechenzeitverbrauch reduziert werden.

Unter dem Strich sollten Sie also keine Feature-Diskretisierung ausführen, wenn Sie nicht rechnerisch eingeschränkt sind und Ihr Modell keine diskreten Features benötigt. Ansonsten bedenken Sie es auf jeden Fall.

— Youloush
quelle

Eine Methode, die die numerische Natur der Variablen nicht verwendet, sollte auf jeden Fall vermieden werden.

— Frank Harrell

Das ist einfach falsch. Entscheidungsbäume, Random Forests und Gradient Boosted DT sind hervorragende Algorithmen und berücksichtigen die numerische Natur der Variablen nur in ihrer Reihenfolge. Naive Bayes können oft ein mehr als ausreichendes Werkzeug für grundlegende Klassifizierungsaufgaben sein.

— Youloush

Es gibt mehrere Missverständnisse. Zunächst nehmen Sie an, dass bei der Diskretisierung zumindest die Ordnungszahl kontinuierlicher Prädiktoren verwendet wird. Es tut nicht. Dann verwechseln Sie Pre-Binning (eine Katastrophe) mit Binning während des Vorhersagealgorithmus (eine kleine Katastrophe). Sie gehen davon aus, dass die Klassifizierung im Gegensatz zur Vorhersage zu optimalen Entscheidungen führt. Sie gehen davon aus, dass die Kategorisierung von Inputs der richtige Weg ist, im Gegensatz zur Kategorisierung von Outputs (vorhergesagtes Risiko, dann wenden Sie die Verlustfunktion an, um eine optimale Entscheidung zu treffen). Schließlich implizieren Sie, dass es in Ordnung ist, echte reibungslose Beziehungen diskontinuierlich zu machen.

— Frank Harrell

Da Vorhersagefehler eine falsche Bewertungsregel für die Genauigkeit sind, sagt diese Aussage viel über ML aus. Und ich kenne nicht viele Statistiker, die wirklich nach einer zugrunde liegenden Realität suchen. Wir geben uns damit zufrieden, verschiedene Annäherungen oder Stellvertreter für die Realität zu entwickeln und die Daten einfach für sich selbst sprechen zu lassen.

— Frank Harrell

PS Glatte Beziehungen existieren als zugrunde liegende Wahrheit in fast allen Datensätzen, die nicht die Zeit als einzigen Prädiktor enthalten. Offensichtlich sind Datenpunkte diskret. Das hat absolut nichts damit zu tun, ob Sie sich für einen reibungslosen Modellierungsansatz entscheiden oder nicht.

— Frank Harrell