Vorhersage des nächsten medizinischen Zustands anhand früherer Zustände in Schadensdaten


12

Ich arbeite derzeit mit einer Vielzahl von Daten zu Krankenversicherungsansprüchen, einschließlich einiger Angaben zu Labor- und Apothekenansprüchen. Die konsistentesten Informationen im Datensatz bestehen jedoch aus Diagnose- (ICD-9CM) und Verfahrenscodes (CPT, HCSPCS, ICD-9CM).

Meine Ziele sind:

  1. Identifizieren Sie die einflussreichsten Vorläuferzustände (Komorbiditäten) für einen medizinischen Zustand wie eine chronische Nierenerkrankung.
  2. Identifizieren Sie die Wahrscheinlichkeit (oder Wahrscheinlichkeit), dass ein Patient einen medizinischen Zustand entwickelt, basierend auf den Zuständen, die er in der Vergangenheit hatte.
  3. Machen Sie dasselbe wie 1 und 2, aber mit Prozeduren und / oder Diagnosen.
  4. Vorzugsweise sind die Ergebnisse von einem Arzt interpretierbar

Ich habe mir Dinge wie die Meilensteinpapiere zum Heritage Health Prize angeschaut und viel von ihnen gelernt, aber sie konzentrieren sich auf die Vorhersage von Krankenhausaufenthalten.

Hier sind meine Fragen: Welche Methoden eignen sich Ihrer Meinung nach für solche Probleme? Und welche Ressourcen wären am nützlichsten, um mehr über datenwissenschaftliche Anwendungen und Methoden im Gesundheitswesen und in der klinischen Medizin zu erfahren?

BEARBEITEN SIE 2, um eine Klartext-Tabelle hinzuzufügen:

CNE ist die Zielerkrankung, "chronische Nierenerkrankung", ".alle" bedeutet, dass sie diese Erkrankung zu einem beliebigen Zeitpunkt erworben haben, ".vor.ckd" bedeutet, dass sie diese Erkrankung vor ihrer ersten Diagnose von CNE hatten. Die anderen Abkürzungen entsprechen anderen Bedingungen, die durch ICD-9CM-Codegruppierungen identifiziert werden. Diese Gruppierung erfolgt in SQL während des Importvorgangs. Jede Variable mit Ausnahme von patient_age ist binär.


1
Können Sie einige Beispieldaten bereitstellen (in einfachem Englisch, keine Codes)?
Freund

Ich habe meinem ursprünglichen Beitrag einige Beispieldaten hinzugefügt. In dieser Version wird jede Bedingung durch einen dreistelligen Code gekennzeichnet.
Jamie

1
R ist cool, aber nicht sehr lesbar. Könnten Sie bitte ein Beispiel Ihrer Daten als Tabelle neu formatieren (z. B. im CSV- oder TSV-Format; 5-6 Spalten sind in Ordnung)? Auch eine Erklärung der Variablen (was "Angst", "Grippe" usw. eigentlich bedeutet und was vorhergesagt werden soll) wird viel helfen.
Freund

1
Können Sie weitere Informationen zu den im Datensatz verwendeten Parametern bereitstellen, damit wir verstehen, ob es Korrelationen gibt? Einige der von Ihnen genannten Abkürzungen sind mir nicht klar. Es wäre toll, wenn Sie uns Ihre E-Mail-Adresse mitteilen könnten, damit wir offline zusammenarbeiten können. Vielen Dank!
JohnGalt

1
Dies ist nur ein bisschen verwandt, aber unsere jüngste datentechnische Herausforderung betraf die Vorhersage von Ansprüchen aus anderen Ansprüchen. cloudera.com/content/cloudera/en/training/certification/ccp-ds/… Wenn die Lösung veröffentlicht wird, kann sie einige interessante Ideen enthalten.
Sean Owen

Antworten:


7

Ich habe noch nie mit medizinischen Daten gearbeitet, aber aus allgemeinen Gründen würde ich sagen, dass die Beziehungen zwischen Variablen im Gesundheitswesen ziemlich kompliziert sind. Verschiedene Modelle wie zufällige Wälder, Regressionen usw. können nur einen Teil der Beziehungen erfassen und andere ignorieren. Unter solchen Umständen ist es sinnvoll, eine allgemeine statistische Untersuchung und Modellierung durchzuführen .

Das allererste, was ich tun würde, ist zum Beispiel, Zusammenhänge zwischen möglichen Vorläuferzuständen und Diagnosen herauszufinden . In wie viel Prozent der Fälle ging einer chronischen Nierenerkrankung eine lange Grippe voraus? Wenn es hoch ist, bedeutet es nicht immer Kausalität , sondern gibt ziemlich gute Denkanstöße und hilft, die Beziehungen zwischen verschiedenen Zuständen besser zu verstehen.

Ein weiterer wichtiger Schritt ist die Datenvisualisierung. Tritt CNI bei Männern häufiger auf als bei Frauen? Was ist mit ihrem Wohnort? Wie ist die Verteilung der CNI-Fälle nach Alter? Es ist schwierig, große Datenmengen als eine Menge von Zahlen zu erfassen, da das Zeichnen dieser Daten viel einfacher ist.

Wenn Sie eine Idee haben, was los ist, führen Sie durch Hypothesentests durch , um Ihre Annahme zu überprüfen. Wenn Sie die Nullhypothese (Grundannahme) zugunsten der Alternative ablehnen, herzlichen Glückwunsch, Sie haben "etwas Reales" gemacht.

Wenn Sie schließlich ein gutes Verständnis für Ihre Daten haben, versuchen Sie, ein vollständiges Modell zu erstellen . Es kann sich um etwas Allgemeines wie PGM (z. B. manuell erstelltes Bayes'sches Netzwerk) oder um etwas Spezifischeres wie lineare Regression handeln SVM handeln . In jedem Fall wissen Sie jedoch bereits, wie dieses Modell Ihren Daten entspricht und wie Sie seine Effizienz messen können.


Als gute Einstiegsquelle für das Erlernen des statistischen Ansatzes würde ich den Einführungskurs in die Statistik von Sebastian Thrun empfehlen . Obwohl es ziemlich einfach ist und keine fortgeschrittenen Themen enthält, werden die wichtigsten Konzepte beschrieben und ein systematisches Verständnis der Wahrscheinlichkeitstheorie und -statistik vermittelt.


Danke dafür! Es bestätigt einige der Schritte, die ich bereits unternommen habe (explorative Analyse, Hypothesentests usw.).
Jamie

7

Obwohl ich kein Datenwissenschaftler bin, arbeite ich als Epidemiologe in einem klinischen Umfeld. In Ihrer Forschungsfrage wurde kein Zeitraum angegeben (dh die Wahrscheinlichkeit, dass sich eine CNI in 1 Jahr, 10 Jahren und auf Lebenszeit entwickelt?).

Im Allgemeinen würde ich eine Reihe von Schritten durchlaufen, bevor ich überhaupt über Modellierung nachdenke (univariate Analyse, bivariate Analyse, Colinearitätsprüfungen usw.). Die am häufigsten verwendete Methode zum Vorhersagen eines binären Ereignisses (unter Verwendung kontinuierlicher binärer ODER-Variablen) ist jedoch die logistische Regression. Wenn Sie CKD als Laborwert (Urinalbumin, eGFR) betrachten möchten, verwenden Sie die lineare Regression (kontinuierliches Ergebnis).

Während die verwendeten Methoden anhand Ihrer Daten und Fragen ermittelt werden sollten, sind Kliniker daran gewöhnt, Quoten- und Risikoverhältnisse als die am häufigsten gemeldeten Assoziationsmaße in medizinischen Fachzeitschriften wie NEJM und JAMA zu betrachten.

Wenn Sie an diesem Problem aus Sicht der menschlichen Gesundheit arbeiten (im Gegensatz zu Business Intelligence), sind die klinischen Vorhersagemodelle von Steyerberg eine hervorragende Ressource.


1
Danke für die hilfreichen Vorschläge. Ich werde dieses Buch auf jeden Fall überprüfen! Obwohl ich Zugang zu Laborwerten habe, sind die Daten unzuverlässig und sporadisch, so dass ich versuche, mich an Daten zu halten, die ich aus Behauptungen erhalten kann. Die variablen Abkürzungen sind tatsächlich AHRQ Clinical Classification Software-Gruppierungen von Diagnosecodes.
Jamie

3

"Identifizieren Sie die einflussreichsten Vorläuferzustände (Komorbiditäten) für einen medizinischen Zustand wie eine chronische Nierenerkrankung"

Ich bin mir nicht sicher, ob es möglich ist, die einflussreichsten Bedingungen zu identifizieren. Ich denke, es hängt davon ab, welches Modell Sie verwenden. Erst gestern habe ich eine zufällige Gesamtstruktur und einen verstärkten Regressionsbaum an dieselben Daten angepasst, und die Reihenfolge und die relative Bedeutung, die die einzelnen Modelle für die Variablen angaben, waren sehr unterschiedlich.


Danke, Andy. Könnten Sie etwas näher darauf eingehen? Liegt es daran, dass die Variablen nicht genügend Details erfassen?
Jamie

Ich habe keine Ahnung. Ich denke, es hängt davon ab, wie verschiedene Modelle funktionieren.
JenSCDC

Könnten Sie einige der Lösungen vorschlagen, die Sie ausprobiert oder in Betracht gezogen haben?
Jamie

Bisher habe ich das auch noch nicht gemacht, also keine Hilfe da. Es tut uns leid.
JenSCDC

Ich bin jetzt für die nächsten Wochen im Urlaub, aber wenn ich zurückkomme, werde ich es mir ansehen, weil es mein Interesse geweckt hat.
JenSCDC
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.