Imputation einer zensierten Variablen

Ich habe einen medizinischen Datensatz mit ca. 200 Variablen. Eine der Variablen ist ein Bio-Marker (Konzentration eines bestimmten Enzyms). Die Verteilung ist recht schief und das Problem ist, dass Werte über einem bestimmten Level auf diesem Level zensiert / abgeschnitten werden. Während der Mittelwert der Variablen bei 10 liegt, werden alle Werte größer als 50 als 50 aufgezeichnet.

Ich möchte fortlaufende Werte für diese zensierten Werte unterstellen. Ich verwende derzeit mehrere Imputationen mit dem Mäusepaket in R, obwohl mir andere Systeme zur Verfügung stehen und ich offen für andere Ansätze bin. Ein Gedanke, den ich hatte, war, all diese zensierten Werte als fehlend neu zu kodieren und dann die Imputationen auszuführen. Wenn einer der ursprünglich zensierten unterstellten Werte unter dem Grenzwert liegt, wird er als Grenzwert zugewiesen.

Ich würde gerne Meinungen dazu und / oder bessere Methoden zum Umgang damit erfahren.

r epidemiology data-imputation censoring

— Robert Long
quelle

Welche Rolle wird dieser Biomarker in nachfolgenden Analysen spielen? Wird es beispielsweise eine erklärende Variable, eine Kovariate oder eine abhängige Variable in einer Regression sein? Möglicherweise können Sie eine Methode verwenden, für die keine Imputation von Werten erforderlich ist. Sie sollten solche Methoden bevorzugen, da Sie sonst eine WAG über die Form des zensierten rechten Schwanzes erstellen, die - aufgrund der Schiefe - einige einflussreiche Werte in den Analysen enthalten könnte.

— whuber

@whuber, der Biomarker ist eine erklärende Variable. Die übliche Praxis in diesem Bereich besteht darin, es als 0-1, 1-10, 10+ oder manchmal nur als 0-1 und 1+ (dh erhöht oder nicht erhöht) zu diskretisieren. Ich hatte die Idee, es als kontinuierliche erklärende Variable aufzunehmen. Obwohl der Datensatz 200 Variablen enthält, deuten klinische Leitlinien und frühere Erfahrungen darauf hin, 10 davon im endgültigen Modell zu verwenden. Daher habe ich darüber nachgedacht, die Werte> 50 unter Verwendung einiger anderer Variablen zu unterstellen.

— Robert Long

Jede Imputationsmethode, einschließlich Mehrfachimputation, ist ein Schuss in die Dunkelheit, wenn Sie nicht berücksichtigen können, wie die Daten über 50 verteilt sind. Da Sie 200 Variablen haben, korreliert eine davon mit dem Biomarker? Wenn Sie eine Regression für den Biomarker als Funktion der Kovariaten anpassen könnten, könnten Sie dieses Modell verwenden, um die Werte für die abgeschnittenen vorherzusagen. Sie können einen Fehler auf die Vorhersage anwenden, der auf der Restvarianz im Modell basiert, um auf diese Weise mehrere Imputationen zu generieren. Es wäre vernünftiger. Dies setzt natürlich voraus, dass Sie ein gültiges Modell finden und dass die Residuen einen Mittelwert von Null und eine konstante Varianz haben. Sie würden nur dann nicht abgeschnittene Biomarkerwerte anpassen, um das Modell zu erstellen.

— Michael R. Chernick
quelle