Längsvergleich zweier Verteilungen

Ich habe die Testergebnisse einer Blutuntersuchung, die 2500 Personen viermal im Abstand von sechs Monaten verabreicht wurde. Die Ergebnisse bestehen hauptsächlich aus zwei Messungen der Immunantwort - eine in Gegenwart bestimmter Tuberkulose-Antigene, eine in Abwesenheit. Derzeit wird jeder Test entweder positiv oder negativ bewertet, basierend auf dem Unterschied zwischen der Antigenantwort und der Nullantwort (mit der Idee, dass Sie wahrscheinlich irgendwann dem Bakterium selbst ausgesetzt waren, wenn Ihr Immunsystem auf TB-Antigene reagiert ). Im Wesentlichen geht der Test davon aus, dass die Verteilung der Null- und TB-Antworten einer nicht exponierten Person grundsätzlich identisch sein sollte, während bei einer Person mit TB-Exposition TB-Antworten aus einer anderen Verteilung (mit höheren Werten) stammen. Vorbehalt: Die Reaktionen sind sehr, sehr ungewöhnlich und die Werte klumpen sowohl am natürlichen Boden als auch an der vom Instrumenten abgeschnittenen Decke.

In dieser longitudinalen Umgebung scheint es jedoch ziemlich klar zu sein, dass wir "falsch positive" (ich fürchte, kein tatsächlicher Goldstandard für latente Tuberkulose) erhalten, die durch (typischerweise kleine) Schwankungen der Antigen- und Null-Reaktionen verursacht werden. Während dies in einigen Situationen schwer zu vermeiden ist (Sie haben möglicherweise nur eine Chance, jemanden zu testen), gibt es viele Situationen, in denen Menschen jedes Jahr oder so routinemäßig auf TB getestet werden - in den USA ist dies bei Beschäftigten im Gesundheitswesen üblich. das Militär, Obdachlose, die in Notunterkünften bleiben, und so weiter. Es scheint eine Schande, frühere Testergebnisse zu ignorieren, da die vorhandenen Kriterien zufällig einen Querschnitt aufweisen.

Ich denke , was ich tun möchte, ist das, was ich grob als longitudinale Mischungsanalyse verstehe. Ähnlich wie bei den Querschnittskriterien möchte ich in der Lage sein, die Wahrscheinlichkeit zu schätzen, dass die TB- und Null-Antworten einer Person aus derselben Verteilung stammen. Diese Schätzung enthält jedoch vorherige Testergebnisse sowie Informationen aus der Stichprobe als ein Ganzes (z. B. kann ich die stichprobenweite Verteilung der Variabilitäten innerhalb eines Individuums verwenden, um meine Schätzungen der Verteilung von Null oder TB eines bestimmten Individuums zu verbessern?). Die geschätzte Wahrscheinlichkeit müsste sich natürlich im Laufe der Zeit ändern können, um die Möglichkeit einer Neuinfektion zu berücksichtigen.

Ich habe mich total verdreht, als ich versucht habe, auf ungewöhnliche Weise darüber nachzudenken, aber ich denke, diese Konzeptualisierung ist so gut wie jede andere, die ich mir einfallen lassen werde. Wenn etwas keinen Sinn ergibt, können Sie gerne um Klärung bitten. Wenn mein Verständnis der Situation falsch erscheint, können Sie es mir gerne mitteilen. Vielen Dank für deine Hilfe.

Antwort auf Srikant: Es handelt sich um eine latente Klassifizierung (TB-infiziert oder nicht) unter Verwendung der beiden kontinuierlichen (aber nicht normalen und verkürzten) Testergebnisse. Im Moment erfolgt diese Klassifizierung mit einem Cutoff (in seiner vereinfachten Form TB - nil> .35 -> positiv). Bei Testergebnissen, die als (Null, TB, Ergebnis) dargestellt werden, sind die grundlegenden Archetypen *:

Wahrscheinlich negativ: (0,06, 0,15, -) (0,24, 0,23, -) (0,09, 0,11, -) (0,16, 0,15, -)
Wahrscheinlich positiv: (0,05, 3,75, +) (0,05, 1,56, +) (0,06 , 5,02, +) (0,08, 4,43, +)
Wobbler: (0,05, 0,29, -) (0,09, 0,68, +) (0,08, 0,31, -) (0,07, 0,28, -)

Das Positive beim zweiten Test für den Wobbler ist ziemlich eindeutig eine Aberration, aber wie würden Sie das modellieren? Während eine meiner Überlegungen darin besteht, den "wahren Unterschied" zwischen TB und Null zu jedem Zeitpunkt mithilfe eines Mehrebenenmodells mit wiederholten Messungen abzuschätzen, kam mir der Gedanke, dass ich wirklich wissen möchte, ob die Person keine Antwort und keine TB-Antwort hat werden aus derselben Verteilung gezogen oder wenn ihr Immunsystem die TB-Antigene erkennt und aktiviert, was zu einer erhöhten Reaktion führt.

Was einen anderen positiven Test als eine Infektion verursachen könnte: Ich bin mir nicht sicher. Ich vermute, dass die Ergebnisse normalerweise nur innerhalb der Person variieren, aber es gibt sicherlich die Möglichkeit anderer Faktoren. Wir haben zu jedem Zeitpunkt Fragebögen, aber ich habe diese noch nicht zu sehr untersucht.

* Vorgefertigte, aber veranschaulichende Daten

repeated-measures

— Matt Parker
quelle

Oh, und zögern Sie nicht, erneut zu markieren - mein Browser funktioniert nicht mit dem automatischen Vorschlag, daher fällt es mir schwer zu sehen, was da draußen ist.

— Matt Parker

Ist Ihre abhängige Variable stetig oder diskret? Oder ist das zugrunde liegende Testergebnis möglicherweise kontinuierlich und wird abhängig von einem Grenzwert in eine diskrete Antwort (dh "positiv", "negativ") umgewandelt? Können Sie auch klarstellen, warum eine Person von negativ zu positiv wechselt, obwohl sie keiner TB ausgesetzt ist? Ein spezielles Beispiel (mit einigen eingeworfenen Zahlen) für einen solchen Flip kann helfen.

Die Beispiele sind sehr hilfreich, um die Daten zu visualisieren. Eine weitere Frage zu Ihrer Einschränkung: "Die Werte klumpen am Boden und an der Decke und die Daten sind nicht normal." Können Sie mir sagen, ob (a) die Daten am unteren Ende der Skala normal aussehen und (b) die Daten am oberen Ende der Skala normal aussehen?

Hinweis: Ich habe anscheinend die Frist für die tatsächliche Vergabe des Kopfgeldes verpasst, daher richte ich ein weiteres ein, damit ich Srikant für seine Hilfe angemessen belohnen kann. Weitere Antworten sind immer willkommen, aber das Kopfgeld ist für ihn.

— Matt Parker

Antworten:

Dies ist keine vollständige Antwort, aber ich hoffe, es gibt Ihnen einige Ideen, wie Sie die Situation auf kohärente Weise modellieren können.

Annahmen

Die Werte am unteren Ende der Skala folgen einer von unten abgeschnittenen Normalverteilung.
Die Werte am oberen Ende der Skala folgen einer von oben abgeschnittenen Normalverteilung.

(Hinweis: Ich weiß, dass Sie gesagt haben, dass die Daten nicht normal sind, aber ich gehe davon aus, dass Sie sich auf die Verteilung aller Werte beziehen, während sich die obigen Annahmen auf die Werte am unteren und oberen Ende der Skala beziehen.)
Der zugrunde liegende Zustand einer Person (unabhängig davon, ob sie an TB leidet oder nicht) folgt einer Markov-Kette erster Ordnung.

Modell

Lassen:

$D_i(t)$ ist 1, wenn zum Zeitpunkt die Person TB hat, andernfalls 0, $t$ $i^\mbox{th}$
$RTB_i(t)$ ist die auf den TB-Test zum Zeitpunkt der Person, $t$ $i^\mbox{th}$
$RN_i(t)$ ist die Testantwort auf den NILL-Test zum Zeitpunkt der Person, $t$ $i^\mbox{th}$
$f(RN_i(t) | D_i(t)=0) \sim N(\mu_l,\sigma_l^2) I(RN_i(t) > R_l)$
$f(RN_i(t) | D_i(t)=1) \sim N(\mu_l,\sigma_l^2) I(RN_i(t) > R_l)$

Die Punkte 4 und 5 erfassen die Idee, dass die Reaktion einer Person auf den NILL-Test nicht vom Krankheitsstatus abhängt.
$f(RTB_i(t) | D_i(t)=0) \sim N(\mu_l,\sigma_l^2) I(RTB_i(t) > R_l)$
$f(RTB_i(t) | D_i(t)=1) \sim N(\mu_u,\sigma_u^2) I(RTB_i(t) < R_u)$
$\mu_u > \mu_l$

Die Punkte 6, 7 und 8 erfassen die Idee, dass die Reaktion einer Person auf den TB-Test vom Krankheitsstatus abhängt .
$p(t)$ ist die Wahrscheinlichkeit, dass eine Person in den 6 Monaten vor dem Zeitpunkt an TB erkrankt, da sie während des vorherigen Testzeitraums krankheitsfrei war. Daher möchte die Zustandsübergangsmatrix die folgende: $t$

$\begin{bmatrix} 1-p(t) & p(t) \\ 0 & 1 \end{bmatrix}$

Mit anderen Worten,

$Prob(D_i(t)=1 | D_i(t-1) = 0) = p(t)$

$Prob(D_i(t)=0 | D_i(t-1) = 0) = 1-p(t)$

$Prob(D_i(t)=1 | D_i(t-1) = 1) = 1$

$Prob(D_i(t)=0 | D_i(t-1) = 1) = 0$

Ihre Testkriterien besagen, dass:

$\hat{D}_i(t) = \begin{cases} 1, & RTB_i(t) - RN_i(t) \ge 0.35 \\ 0, & otherwise \end{cases}$

Wie Sie jedoch aus der Struktur des Modells ersehen können, können Sie die Grenzwerte tatsächlich parametrisieren und das gesamte Problem auf das ändern, was Ihre Grenzwerte sein sollten, um Patienten genau zu diagnostizieren. Daher scheint das Wobbler-Problem eher ein Problem bei der Auswahl der Grenzwerte zu sein als bei irgendetwas anderem.

Um die „richtigen“ Grenzwerte auszuwählen, können Sie historische Daten über Patienten mit TB-Infektion verwenden und die resultierenden Parameter des obigen Setups schätzen. Sie können einige Kriterien wie die Anzahl der Patienten, die korrekt als TB eingestuft wurden oder nicht, als Messgröße verwenden, um das „beste“ Modell zu ermitteln. Der Einfachheit halber könnte man annehmen, dass ein zeitinvarianter Parameter ist, der in Abwesenheit von Epidemien usw. vernünftig erscheint. $p(t)$

Hoffe das ist nützlich.

Danke, Srikant! Entschuldigung, ich habe Ihren Kommentar früher irgendwie verpasst. Der obere Cluster ist wirklich nur eine Spitze direkt an der Decke - es gibt dort keine Variabilität außer der langen Strecke der Gleichmäßigkeit, die ihn mit der unteren Verteilung verbindet, die im Grunde so ist, wie Sie es beschreiben. Ich werde einige Zeit brauchen, um Ihre Antwort zu analysieren (insbesondere, weil ich im Internet Explorer festsitze und LaTeX momentan nicht richtig sehen kann), aber ich schätze Ihr Engagement für diese seltsame kleine Frage sehr.

— Matt Parker

Tricky Matt, so viele Probleme mit Statistiken in der realen Welt gibt es!

Ich würde anfangen, Ihre Studienziele zu definieren.

Ohne Kenntnis des wahren Status der Probanden wird es schwierig sein, die Wahrscheinlichkeitsverteilungen für den TB + - und TB- -Test zu definieren. Haben Sie Fragebögen zu früheren TB-Infektionen (oder besser zu Krankengeschichten)? Außerdem teste ich TB + immer noch aufgrund einer Immunisierung in der Kindheit - vor einigen Jahrzehnten -, sodass frühere Impfungen in Betracht gezogen werden müssen.

Mir scheint, Ihre eigentliche Frage lautet: Beeinflussen wiederholte TB-Tests das Testergebnis?

Es lohnt sich, eine Kopie von Peter Diggles Analyse der Längsschnittdaten zu erhalten .

Führen Sie eine explorative Datenanalyse durch, insbesondere Streudiagramm-Matrizen der Null-Testergebnisse zu jedem Zeitpunkt gegeneinander und der TB-Testergebnisse zu jedem Zeitpunkt gegeneinander. und die TB gegen Null-Streudiagramme (zu jedem Zeitpunkt). Nehmen Sie auch die Unterschiede (TB-Test - Null-Test) und machen Sie die Streudiagramm-Matrizen. Versuchen Sie, die Daten zu transformieren, und wiederholen Sie diese - ich stelle mir vor, dass log (TB) - log (Nil) hilfreich sein kann, wenn die TB-Ergebnisse im Vergleich zu Nil sehr groß sind. Suchen Sie in der Korrelationsstruktur nach linearen Beziehungen.

Ein anderer Ansatz wäre, das definierte Testergebnis (positiv / negativ) zu nehmen und dieses logitudinal mit einem nichtlinearen Mischeffektmodell (logit link) zu modellieren. Wechseln einige Personen zwischen dem Testen von TB + und TB- und hängt dies mit ihrem Null-Test, TB-Test, TB-Null oder einer Transformation der Testergebnisse zusammen?

— Thylacoleo
quelle

Danke für deine Antwort. In Bezug auf die Unkenntnis des wahren Status: Wir haben umfangreiche Fragebögen und sind uns des BCG-Impfstoffproblems mit dem Hauttest bewusst. Tatsächlich sollen diese Bluttests dieses Problem lösen, da sie einen anderen Satz von Antigenen verwenden als die PPD, die Sie verwenden sind es gewohnt. Das ist jedoch fast eine separate Frage, an der wir etwas später arbeiten werden - im Moment ist es mein Interesse, diesen Test "langfristig bewusst" zu machen.

— Matt Parker

... vor allem, weil einige Personen von negativ zu positiv wechseln und dies oft ein Produkt ihrer typischen Null- und TB-Ergebnisse ist, die kleine Schwankungen verursachen - Null ein bisschen runter, TB ein bisschen rauf und plötzlich sind sie positiv. Beim nächsten Test sind sie wieder negativ geworden. Ich kann das sehen, wenn ich einzelne Ergebnisse überprüfe, bin mir aber nicht sicher, wie ich meine Intuition angemessen in ein Modell integrieren kann.

— Matt Parker

Obwohl ich versucht habe, die Protokollergebnisse zu erfassen, scheint dies nicht ausreichend zu sein, um sie auch nur annähernd an die Normalität heranzuführen. Sie sind sehr, sehr schief, und das Abschneiden am oberen Ende erschwert dies weiter, indem an der Decke ein merklicher Dichteklumpen hinzugefügt wird. Interessanterweise sind die Stichproben-Null-Null- und TB-Ergebnisverteilungen jedoch ziemlich ähnlich, mit dem einzigen Unterschied, dass dieser Fleck an der Decke für die TB-Ergebnisse viel größer ist.

— Matt Parker

Vielen Dank, dass Sie sich die Zeit genommen haben, dieses Biest einer Frage zu lesen und zu beantworten!

— Matt Parker