Was bewirkt die Dichotomisierung von Variablen?


14
  • Welche Informationen gehen bei der Dichotomisierung von Variablen verloren?
  • Wie hilft eine Dichotomisierung bei den Analysen?

Gelman und Park haben einen Artikel, der die Praxis vergleicht, drei Kategorien aus einer kontinuierlichen Variablen zu erstellen, statt zwei. In der Regel ist es aus den nachfolgend erläuterten Gründen am besten, die Variable kontinuierlich zu lassen.
Michael Bishop

Antworten:


10

Welche Informationen verloren gehen: Es kommt auf die Variable an. Im Allgemeinen wird durch Dichotomisierung angenommen, dass zwischen einer Variablen und einer anderen eine gerade Wirkungslinie besteht. Betrachten Sie beispielsweise eine kontinuierliche Messung der Exposition gegenüber einem Schadstoff in einer Krebsstudie. Wenn Sie es in "Hoch" und "Niedrig" dichotomisieren, behaupten Sie, dass dies die einzigen zwei Werte sind, die von Bedeutung sind. Es gibt ein hohes Krebsrisiko und ein niedriges. Aber was ist, wenn das Risiko für eine Weile stetig ansteigt, sich dann abflacht und dann wieder ansteigt, bevor es schließlich zu Spitzenwerten kommt? Das alles ist verloren.

Was Sie gewinnen: Es ist einfacher. Dichotome Variablen sind statistisch oft viel einfacher zu behandeln. Es gibt Gründe, es zu tun - wenn eine kontinuierliche Variable sowieso in zwei klare Gruppierungen fällt , aber ich neige dazu, Dichotomisierung zu vermeiden, es sei denn, es ist eine natürliche Form der Variablen. Es ist oft auch nützlich, wenn Ihr Feld Dinge sowieso dichotomisiert, um eine dichotomisierte Form einer Variablen zu haben. Beispielsweise betrachten viele die CD4-Zellzahl von weniger als 400 als kritische Schwelle für HIV. Als solches hätte ich oft eine 0/1-Variable für über / unter 400, obwohl ich die kontinuierliche CD4-Zählvariable auch behalten würde. Dies hilft, Ihr Studium mit anderen zu verbinden.

Ich werde ein wenig mit Peter nicht einverstanden sein. Während die Aufteilung einer stetigen Variablen in Kategorien oft weitaus sinnvoller ist als eine grobe Dichotomisierung, bin ich eher gegen eine Quantilkategorisierung. Solche Kategorisierungen lassen sich nur sehr schwer sinnvoll interpretieren. Ich denke, Ihr erster Schritt sollte darin bestehen, herauszufinden, ob es eine biologisch oder klinisch gut unterstützte Kategorisierung gibt, die man verwenden kann. Wenn diese Optionen erschöpft sind, sollten Sie Quantile verwenden.


Hallo @epigrad. Ich denke, die Quantil-Regression ist recht einfach zu interpretieren. Es ist der regulären OLS-Regression sehr ähnlich, außer dass "Mittelwert" durch "XXX-Perzentil" ersetzt wird.
Peter Flom - Reinstate Monica

@PeterFlom Sorry, ich hätte klarer sein sollen. Ich finde es schwierig, sie als klinisch / biologisch relevante Interpretation zu verfassen, wenn man sie mit Kategorien vergleicht, die sich aus klinischen / biologischen Beweisen zusammensetzen. Dies ist zugegebenermaßen eine feldspezifische Voreingenommenheit von meiner Seite.
Fomite

Oh, OK, @epigrad, das macht Sinn. Und ich werde meine Antwort bearbeiten, um diesen Fall einzuschließen.
Peter Flom - Reinstate Monica

1
Es scheint, dass EpiGrad und @PeterFlom "Quantile Regression" unterschiedlich interpretieren. In EpiGrad wird die X-Variable in Gruppen unterteilt, die durch Quantile definiert sind, während in Peter Flom beispielsweise das 90. Quantil der Antwort anstelle des Mittelwerts modelliert wird.
Aniko

@Aniko Das mag auch möglich sein. Ich war (wahrscheinlich zu Unrecht) davon ausgegangen, dass Peter die Daten in Quantile einteilen und in einem Regressionsmodell verwenden wollte. Eine übliche (und lästige) Tendenz auf meinem Gebiet. Das ist vielleicht nicht der Fall.
Fomite

9

Dichotimisierung erweitert die Datenanalyse um magisches Denken. Das ist sehr selten eine gute Idee.

Hier ist ein Artikel von Royston, Altman und Sauerbrei über einige Gründe, warum es eine schlechte Idee ist.

Meine eigenen Gedanken: Wenn Sie eine abhängige Variable dichotomisieren, z. B. das Geburtsgewicht bei 2,5 kg (dies geschieht ständig), dann behandeln Sie Babys, die mit 2,49 kg geboren sind, genau wie Babys, die mit 1,5 kg geboren sind, und Babys, die mit 2,51 geboren sind kg wie diejenigen, die 3,5 kg sind. Das macht keinen Sinn.

Eine bessere Alternative ist häufig die Quantilregression. Ich habe kürzlich für NESUG darüber geschrieben. Das Papier ist hier

Eine Ausnahme ist, wenn die Kategorien inhaltlich motiviert sind. Wenn Sie zum Beispiel mit dem Fahrverhalten arbeiten, ist es sinnvoll, diese nach dem gesetzlichen Fahralter zu kategorisieren.


5
Schön gesagt Peter. Ich kann mir keine Situation vorstellen, in der Dichotomisierung in der Analyse eine gute Idee ist.
Frank Harrell

5

Ich mochte und unterstütze die Antworten von @ Epigrad und @ Peter. Ich wollte nur hinzufügen, dass eine Binning-Intervall-Variable in eine binäre Variable eine (potentiell) metrische Variable macht, die nur eine ordinale Variable ist. Bei binären Variablen ist es nicht richtig, den Mittelwert oder die Varianz zu berechnen (obwohl dies einige Leute tun), und, wie ich an anderer Stelle bemerkt habe, sind einige multivariate Analysen theoretisch oder logisch nicht anwendbar. Ich denke zum Beispiel, dass es nicht richtig ist, die hierarchische Clusterbildung oder die Faktoranalyse von Schwerpunkten / Bezirken mit binären Variablen zu verwenden.

Untersuchungskunden zwingen uns oft, Variablen bei der Ausgabe zu dichotomisieren, da das Denken in wenigen Klassen anstelle eines kontinuierlichen Merkmals einfacher ist, Informationen weniger neblig und (fälschlicherweise) umfangreicher erscheinen.

Es gibt jedoch Fälle, in denen eine Dichotomisierung gerechtfertigt sein kann. Zum Beispiel, wenn es eine starke Bimodalität gibt oder wenn die Analyse (z. B. MAMBAC oder andere) das Vorhandensein von 2 latenten Klassen zeigt.


Es fällt mir schwer, Ihre Argumentation zu verstehen. Und wenn ein Kunde will, dass wir uns auf schlechte statistische Praktiken einlassen, sollten wir zweimal darüber nachdenken. Hinweis: Trichotomie ist kein Wort. Dichotomization = dicho (zwei) + tomous (cut), also wäre es tritomize / tritomise, wenn verwendet.
Frank Harrell

Die Weitergabe an den Kunden war eine Klage, kein Argument. Was den Griechen betrifft, hast du recht; Ich habe das Wort entfernt.
ttnphns

1
Vielen Dank. Ich versuche, soweit es menschlich möglich ist, statistische Klagen in Korrekturmaßnahmen umzusetzen, obwohl ein intensiver Aufklärungsprozess mit dem Klienten stattfindet.
Frank Harrell
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.