Sie haben in beiden Punkten Recht. Auf der Seite von Frank Harrell finden Sie eine lange Liste von Problemen mit dem Binning kontinuierlicher Variablen. Wenn Sie einige Fächer verwenden, werfen Sie viele Informationen in die Prädiktoren. Wenn Sie viele verwenden, tendieren Sie dazu, Wackelbewegungen in einer glatten, wenn nicht linearen Beziehung unterzubringen, und verbrauchen eine Menge Freiheitsgrade. Im Allgemeinen ist es besser, Polynome ( ) oder Splines (stückweise Polynome, die sich reibungslos verbinden) für die Prädiktoren zu verwenden. Binning ist wirklich nur eine gute Idee, wenn Sie eine Diskontinuität in der Reaktion an den Grenzpunkten erwarten würden - sagen wir, die Temperatur, bei der etwas kocht, oder das gesetzliche Alter für das Fahren - und wenn die Reaktion zwischen ihnen flach ist.x+x2+…
Der Wert? - Nun, es ist eine schnelle und einfache Möglichkeit, die Krümmung zu berücksichtigen, ohne darüber nachdenken zu müssen. Das Modell ist möglicherweise gut genug für das, wofür Sie es verwenden. Wenn Sie im Vergleich zur Anzahl der Prädiktoren viele Daten haben, funktioniert dies in der Regel einwandfrei. Jeder Prädiktor ist in viele Kategorien unterteilt. In diesem Fall ist der Bereich der Antwort innerhalb jedes Prädiktorbandes klein und die durchschnittliche Antwort wird genau bestimmt.
[Bearbeiten als Antwort auf Kommentare:
Manchmal werden innerhalb eines Feldes Standardgrenzwerte für eine kontinuierliche Variable verwendet: Beispielsweise können in der Medizin Blutdruckmessungen als niedrig, mittel oder hoch eingestuft werden. Es kann viele gute Gründe dafür geben, solche Ausschnitte zu verwenden, wenn Sie ein Modell präsentieren oder anwenden. Insbesondere basieren Entscheidungsregeln häufig auf weniger Informationen als in einem Modell und müssen möglicherweise einfach anzuwenden sein. Daraus folgt jedoch nicht, dass diese Grenzwerte für das Binning der Prädiktoren geeignet sind, wenn Sie das Modell anpassen.
Angenommen, eine Reaktion ändert sich kontinuierlich mit dem Blutdruck. Wenn Sie in Ihrer Studie eine Bluthochdruckgruppe als Prädiktor definieren, ist der Effekt, den Sie schätzen, die durchschnittliche Reaktion auf den jeweiligen Blutdruck der Personen in dieser Gruppe. Ist es nichteine Schätzung der durchschnittlichen Reaktion von Menschen mit Bluthochdruck in der Allgemeinbevölkerung oder von Menschen in der Bluthochdruckgruppe in einer anderen Studie, es sei denn, Sie treffen spezielle Maßnahmen, um dies zu erreichen. Wenn die Verteilung des Blutdrucks in der Allgemeinbevölkerung bekannt ist, wie ich es mir vorstelle, sollten Sie die durchschnittliche Reaktion von Menschen mit hohem Blutdruck in der Allgemeinbevölkerung besser anhand von Vorhersagen aus dem Modell mit dem Blutdruck als a berechnen kontinuierliche Variable. Durch das Binning wird Ihr Modell nur annähernd verallgemeinerbar.
Im Allgemeinen, wenn Sie Fragen zum Verhalten der Reaktion zwischen den Abschneidevorgängen haben, passen Sie das bestmögliche Modell zuerst an und verwenden Sie es dann, um sie zu beantworten.]
[In Bezug auf die Präsentation; Ich denke das ist ein roter Hering:
(1) Einfache Präsentation rechtfertigt keine schlechten Modellierungsentscheidungen. (Und in Fällen, in denen Binning eine gute Modellierungsentscheidung ist, ist keine zusätzliche Begründung erforderlich.) Dies ist sicherlich selbstverständlich. Niemand empfiehlt jemals, eine wichtige Interaktion aus einem Modell herauszunehmen, weil es schwer zu präsentieren ist.
(2) Unabhängig von der Art des Modells, zu dem Sie passen, können Sie die Ergebnisse dennoch in Kategorien darstellen, wenn Sie der Meinung sind, dass dies die Interpretation erleichtert. Obwohl ...
(3) Sie müssen vorsichtig sein, um sicherzustellen, dass es aus den oben genannten Gründen nicht zu Fehlinterpretationen kommt.
(4) Es ist in der Tat nicht schwierig, nichtlineare Antworten darzustellen. Die persönliche Meinung und das Publikum sind sehr unterschiedlich. Aber ich habe noch nie ein Diagramm von angepassten Antwortwerten im Vergleich zu Prädiktorwerten gesehen, das jemanden verwirrt, nur weil es gekrümmt ist. Interaktionen, Logs, zufällige Effekte, Multikollinearität ... - all dies ist viel schwerer zu erklären.]
[Ein weiterer Punkt, den @ Roland angesprochen hat, ist die Genauigkeit der Messung der Prädiktoren; Ich denke, er schlägt vor, dass eine Kategorisierung angebracht sein könnte, wenn sie nicht besonders genau ist. Der gesunde Menschenverstand könnte darauf hindeuten , dass Sie nicht verbessern Angelegenheiten erneut unter Angabe sie noch weniger genau, und der gesunde Menschenverstand wäre richtig: MacCallum et al (2002), „Über die Praxis der Dichotomisierung der quantitativen Variablen“, Psychologische Methodenlehre , 7 , 1, S. 17–19.]