- Welche Informationen gehen bei der Dichotomisierung von Variablen verloren?
- Wie hilft eine Dichotomisierung bei den Analysen?
Antworten:
Welche Informationen verloren gehen: Es kommt auf die Variable an. Im Allgemeinen wird durch Dichotomisierung angenommen, dass zwischen einer Variablen und einer anderen eine gerade Wirkungslinie besteht. Betrachten Sie beispielsweise eine kontinuierliche Messung der Exposition gegenüber einem Schadstoff in einer Krebsstudie. Wenn Sie es in "Hoch" und "Niedrig" dichotomisieren, behaupten Sie, dass dies die einzigen zwei Werte sind, die von Bedeutung sind. Es gibt ein hohes Krebsrisiko und ein niedriges. Aber was ist, wenn das Risiko für eine Weile stetig ansteigt, sich dann abflacht und dann wieder ansteigt, bevor es schließlich zu Spitzenwerten kommt? Das alles ist verloren.
Was Sie gewinnen: Es ist einfacher. Dichotome Variablen sind statistisch oft viel einfacher zu behandeln. Es gibt Gründe, es zu tun - wenn eine kontinuierliche Variable sowieso in zwei klare Gruppierungen fällt , aber ich neige dazu, Dichotomisierung zu vermeiden, es sei denn, es ist eine natürliche Form der Variablen. Es ist oft auch nützlich, wenn Ihr Feld Dinge sowieso dichotomisiert, um eine dichotomisierte Form einer Variablen zu haben. Beispielsweise betrachten viele die CD4-Zellzahl von weniger als 400 als kritische Schwelle für HIV. Als solches hätte ich oft eine 0/1-Variable für über / unter 400, obwohl ich die kontinuierliche CD4-Zählvariable auch behalten würde. Dies hilft, Ihr Studium mit anderen zu verbinden.
Ich werde ein wenig mit Peter nicht einverstanden sein. Während die Aufteilung einer stetigen Variablen in Kategorien oft weitaus sinnvoller ist als eine grobe Dichotomisierung, bin ich eher gegen eine Quantilkategorisierung. Solche Kategorisierungen lassen sich nur sehr schwer sinnvoll interpretieren. Ich denke, Ihr erster Schritt sollte darin bestehen, herauszufinden, ob es eine biologisch oder klinisch gut unterstützte Kategorisierung gibt, die man verwenden kann. Wenn diese Optionen erschöpft sind, sollten Sie Quantile verwenden.
Dichotimisierung erweitert die Datenanalyse um magisches Denken. Das ist sehr selten eine gute Idee.
Hier ist ein Artikel von Royston, Altman und Sauerbrei über einige Gründe, warum es eine schlechte Idee ist.
Meine eigenen Gedanken: Wenn Sie eine abhängige Variable dichotomisieren, z. B. das Geburtsgewicht bei 2,5 kg (dies geschieht ständig), dann behandeln Sie Babys, die mit 2,49 kg geboren sind, genau wie Babys, die mit 1,5 kg geboren sind, und Babys, die mit 2,51 geboren sind kg wie diejenigen, die 3,5 kg sind. Das macht keinen Sinn.
Eine bessere Alternative ist häufig die Quantilregression. Ich habe kürzlich für NESUG darüber geschrieben. Das Papier ist hier
Eine Ausnahme ist, wenn die Kategorien inhaltlich motiviert sind. Wenn Sie zum Beispiel mit dem Fahrverhalten arbeiten, ist es sinnvoll, diese nach dem gesetzlichen Fahralter zu kategorisieren.
Ich mochte und unterstütze die Antworten von @ Epigrad und @ Peter. Ich wollte nur hinzufügen, dass eine Binning-Intervall-Variable in eine binäre Variable eine (potentiell) metrische Variable macht, die nur eine ordinale Variable ist. Bei binären Variablen ist es nicht richtig, den Mittelwert oder die Varianz zu berechnen (obwohl dies einige Leute tun), und, wie ich an anderer Stelle bemerkt habe, sind einige multivariate Analysen theoretisch oder logisch nicht anwendbar. Ich denke zum Beispiel, dass es nicht richtig ist, die hierarchische Clusterbildung oder die Faktoranalyse von Schwerpunkten / Bezirken mit binären Variablen zu verwenden.
Untersuchungskunden zwingen uns oft, Variablen bei der Ausgabe zu dichotomisieren, da das Denken in wenigen Klassen anstelle eines kontinuierlichen Merkmals einfacher ist, Informationen weniger neblig und (fälschlicherweise) umfangreicher erscheinen.
Es gibt jedoch Fälle, in denen eine Dichotomisierung gerechtfertigt sein kann. Zum Beispiel, wenn es eine starke Bimodalität gibt oder wenn die Analyse (z. B. MAMBAC oder andere) das Vorhandensein von 2 latenten Klassen zeigt.