Behandlung der Ebenen "Weiß nicht / Abgelehnt" von kategorialen Variablen

9

Ich modelliere die Diabetes-Vorhersage mithilfe der logistischen Regression. Der verwendete Datensatz ist das Behavioral Risk Factor Surveillance System (BRFSS) des Center for Disease Control (CDC). Eine der unabhängigen Variablen ist Bluthochdruck. Es ist kategorisch mit den folgenden Ebenen "Ja", "Nein", "Weiß nicht / Abgelehnt". Sollte ich diese Zeilen beim Erstellen des Modells mit "Weiß nicht / Abgelehnt" entfernen? Welchen Unterschied macht es, diese Zeilen im Modell zu behalten oder zu entfernen?

logistic missing-data

— user3897
quelle

6

Ich habe mich gerade über genau dieselbe Frage gewundert, als ich die neuesten Daten der National Hospital Discharge Survey analysiert habe . Einige Variablen weisen erhebliche fehlende Werte auf, wie z. B. Familienstand und Art des Verfahrens. Ich wurde auf dieses Problem aufmerksam, weil diese Kategorien in den meisten von mir durchgeführten logistischen Regressionsanalysen starke (und signifikante) Auswirkungen hatten.

Man neigt dazu, sich zu fragen, warumEin fehlender Code wird angegeben. Beispielsweise ist es im Falle des Familienstands plausibel, dass die Nichtbereitstellung dieser Informationen mit wichtigen Faktoren wie dem sozioökonomischen Status oder der Art der Krankheit in Verbindung gebracht werden kann. Bei Ihrem hohen Blutdruck sollten wir uns fragen, warum der Wert nicht bekannt ist oder abgelehnt wird. Dies könnte mit Praktiken in der Einrichtung zusammenhängen (möglicherweise aufgrund laxer Verfahren) oder sogar mit Einzelpersonen (z. B. religiösen Überzeugungen). Diese Eigenschaften könnten wiederum mit Diabetes verbunden sein. Daher erscheint es ratsam, so fortzufahren, wie Sie es getan haben, anstatt diese Werte als fehlend zu codieren (wodurch sie insgesamt von der Analyse ausgeschlossen werden) oder zu versuchen, die Werte zu unterstellen (wodurch die von ihnen bereitgestellten Informationen effektiv maskiert werden und die Ergebnisse verzerrt werden könnten). Es ist wirklich nicht schwieriger zu tun: Sie müssen lediglich sicherstellen, dass diese Variable als kategorial behandelt wird, und Sie erhalten einen weiteren Koeffizienten in der Regressionsausgabe. Außerdem vermute ich, dass die BRFSS-Datensätze groß genug sind, dass Sie sich keine Sorgen um die Stromversorgung machen müssen.

— whuber
quelle

2

Außerdem könnte DK eine echte Bedeutung haben, dh diese Personen sind nicht gesundheitsbewusst und könnten gefährdet sein.

— Brandon Bertelsen

2

Zuerst müssen Sie überlegen, ob die fehlenden Daten vollständig zufällig (MCAR), zufällig (MAR) oder nicht zufällig (MNAR) fehlen, da das Löschen (mit anderen Worten eine vollständige Fallanalyse) zu verzerrten Ergebnissen führen kann. Alternativen sind inverse Wahrscheinlichkeitsgewichtung, multiple Imputation, die Full-Likelihood-Methode und doppelt robuste Methoden. Multiple Imputation mit verketteten Gleichungen (MICE), wenn dies oft der einfachste Weg ist.

— GaBorgulya
quelle

Dankeschön. Es handelt sich um Umfragedaten, und ich bin mir nicht sicher, ob es sich um MAR oder MNAR handelt. Zum Beispiel gibt es eine Variable, die sagt 1) "ob eine Person Diabetes hat oder nicht?" und eine andere Variable (2) Ob er Insulin nimmt? Ich sehe, dass Variable (2) nur Einträge hat, wenn Variable (1) 'Ja' ist (dh eine Person ist Diabetiker). Andernfalls ist (2) leer. Zusätzlich hat (2) 'Ja', 'Nein', 'Weiß nicht / Abgelehnt' als Antworten für den Fall Diabetiker. Wie behandle ich die leeren Zellen und die Umfrageantworten "Weiß nicht / Abgelehnt"?

— user3897

Ich würde gerne etwas über multiple Imputation lernen und suchte nach einem Online-Lernmaterial. Könnten Sie Lernmaterial für MI vorschlagen?

— user3897

0

Haben Sie Grund zu der Annahme, dass Probanden mit Diabetes eher oder weniger wahrscheinlich mit der DK / R-Reaktion enden? Wenn nicht (und ich wäre ziemlich überrascht, wenn Sie das herausfinden würden), führt die Aufnahme dieses Prädiktors in das Modell ohne diese Fälle zu Rauschen. Das heißt, Sie werden weniger genau beurteilen, wie "Ja" oder "Nein" die geschätzte Wahrscheinlichkeit von Diabetes beeinflusst (weil Sie versuchen, den Einfluss von "Ja" oder "Nein" zu modellieren. gegen zufällige DK / R-Antworten im Gegensatz zu nur "Ja" gegen "Nein"). Am einfachsten ist es, Fälle mit DK / R-Antworten auszuschließen. Wenn Sie davon ausgehen, dass ihre "Ja / Nein" -Antworten tatsächlich zufällig fehlten, wird Ihre Einschätzung des Einflusses von "Ja" vs. "Nein." Dieser Ansatz verringert jedoch Ihre Stichprobengröße und damit die statistische Aussagekraft in Bezug auf die verbleibenden Prädiktoren. Wenn Sie viel DK / R für diese Variable haben, möchten Sie möglicherweise "Ja" / "Nein" -Antworten durch Mehrfachzuschreibung unterstellen (wohl die am meisten, vielleicht nur vertretbare Strategie zur Imputation fehlender Werte).

— dmk38
quelle