Angemessene Anwendung der Überlebensanalyse

Ich habe ein Experiment, das Beobachtungen der Zeit bis zum Eintreten eines Ereignisses liefert. Einige grundlegende Eigenschaften sind das

Wir zählen die Anzahl der Ereignisse, die zu einem bestimmten Zeitpunkt aufgetreten sind . $t_1,...,t_n$
Ereigniszeiten werden zwischen , $(t-1,t]$
Einzelpersonen verlassen den Prozess nicht zwischen , eine Einzelperson erlebt das Ereignis entweder durch oder nicht, an welchem Punkt sie zensiert werden. $t_1,...t_n$ $t_1$
Ein großer Teil der Personen wird das Ereignis nicht bis , wenn wir das Experiment beenden, und $t_n$
Ich kann keine zugrunde liegenden parametrischen Zerfallsmodelle annehmen.

Es scheint eine natürliche Anwendung für die Überlebensanalyse zu sein. Es wird jedoch durch die Tatsache kompliziert, dass es trivial ist, das Experiment aus derselben Anfangskonfiguration mehrmals zu wiederholen. Tatsächlich haben wir für jede Beobachtungszeit eine Menge von Ereigniszählungen (wobei die Anzahl der Abtastwerte ist) . Ich bin relativ neu in der Statistik und habe Schwierigkeiten zu sehen, wie man eine Überlebensanalyse auf diese Daten anwendet (wenn sie überhaupt anwendbar ist und es keine geeigneteren Methoden gibt, um diese Art von Zeit-zu-Ereignis-Daten zu messen). Meine Neigung ist es, die Überlebensfunktion um die mittlere Anzahl beobachteter Ereignisse in jedem Intervall zu konstruieren (dh $m_{1,...,s}$ $s$ $t_i$ $\bar{m}_{1,...,n}$ ), die die erwartete Anzahl von Ereignissen in jedem Intervall in der Bevölkerung besser approximieren sollte, aber ich habe keine Ahnung, ob dies angemessen ist oder welche Auswirkungen dies hat.

Ich habe vergeblich in Google Scholar gesucht. Wenn mich jemand auf mehr Material verweisen könnte (oder mir die richtige Nomenklatur für das geben könnte, was ich versuche), wäre ich dankbar.

Bearbeiten

Angesichts der Tatsache, dass die -Intervalle über alle Stichproben hinweg einheitlich sind, sagen wir, dass ich die folgende Matrix hatte, die die kumulative Anzahl von Personen beschreibt, für die in jedem Intervall ein Ereignis aufgetreten ist $(t-1, t]$

$M = \left(\begin{array}{ccc} 0 & 24 & 35 & 52 & 60 & 71 \\ 0 & 22 & 38 & 57 & 64 & 75 \\ 0 & 26 & 34 & 55 & 62 & 72 \\ 0 & 21 & 32 & 52 & 61 & 73 \end{array}\right)$

Dabei gibt jede Zeile die Ereignisanzahl für dieselbe Gruppe von Risikopersonen bei über alle Stichproben (dh mehrere Instanzen des Experiments) an, und jede Spalte ist ein Beobachtungsintervall. Ich gehe davon aus, dass ich durch die mittlere Anzahl von Ereignissen für jedes Intervall eine bessere Schätzung des erwarteten Überlebens der Population erhalten kann. bezeichne also die Anzahl der Zeitintervalle, die Anzahl der Proben (Versuchsinstanzen) und dann den Vektor $t=0$ $n$ $s$

$\bar{M} = \left[ {{\sum_{i=1}^{s}M_{it}}\over{s}} \right]_{t=1...n}$

ist die mittlere Anzahl der beobachteten Ereignisse für jedes Zeitintervall.

Mein Ziel ist es daher, dies als Input für die Überlebensschätzung zu verwenden. Sei die Anzahl der gefährdeten Personen, wenn . Unter Verwendung des naiven Schätzers ( vorerst, da die Ereignisintervalle über alle Stichproben hinweg einheitlich sind und es bis keine Zensur gibt ) könnte die Überlebensfunktion wie folgt geschätzt werden: $f$ $t=0$ $t_n$

$S(t) = {{f - \bar{M}_t}\over{f}}$

Dies wäre (hoffentlich) eine bessere Schätzung des Überlebens der Bevölkerung als jede einzelne Stichprobe (eine einzelne Zeile von ). Um meine Frage neu zu formulieren: $M$

Ist eine geeignete Eingabe für eine Überlebensfunktionsschätzung? Ich habe diesen Ansatz in keinem der Materialien gesehen, die ich gelesen habe. $\bar{M}$
Kann mich jemand auf ein Material (akademische Arbeiten, Lehrbücher, Wikis usw. wären in Ordnung) zur Schätzung des Konfidenzintervalls und der Varianz für diese Überlebensfunktionsschätzung verweisen, da ich wirklich ein schmerzlicher Anfänger in der Statistik bin? Ich gehe davon aus, dass es nicht mit Standardformulierungen identisch sein wird.

Entschuldigung, wenn meine ursprüngliche Frage verwirrend war, habe ich wahrscheinlich nicht genügend Informationen hinzugefügt.

survival

— Joachim Ziemssen
quelle

Ich verfolge nicht ganz, was Sie verwirrt. Warum befürchten Sie, dass eine Überlebensanalyse hier möglicherweise nicht angemessen ist? Betrachten Sie nur diskrete Zeitintervalle?

— Gung - Reinstate Monica

Ich bin wirklich verwirrt, weil für jedes Intervall mehrere beobachtete Ereignisse gezählt werden. Insbesondere alle Bücher, die ich gelesen habe (Kleinbaum und Klein, 2012), erwarten, dass Sie Ihre Überlebensfunktion für eine einzelne Stichprobe konstruieren. Tatsächlich nehme ich mehrere Stichproben der Bevölkerung und versuche, die wahre Überlebensfunktion der Bevölkerung abzuschätzen, die ich dann mit dem Logrank-Test zwischen Populationen unter verschiedenen Behandlungen vergleiche (da ich noch keine erklärenden Variablen einführe). Für jede Probe zeigen leicht unterschiedliche Zerfallsraten für dieselben Individuen.

m_{1}, . . ., s

$m_1,...,s$

— Joachim Ziemssen

Antworten:

Ich hatte kürzlich eine Reihe von intervallzensierten Überlebensdaten, sodass ich genau weiß, was Sie brauchen. Wenn Sie jemals verwendet haben R, sollte dies helfen.

Wenn Sie keine parametrische Form annehmen möchten, wie wäre es dann mit einem intervallzensierten Cox-Proportional-Hazards-Modell? Das intcoxPaket, das dies tun würde, befindet sich nicht mehr im RRepository. Ich würde vorschlagen, Überlebenszeiten zu berechnen und dann die coxphFunktion aus der survivalBibliothek zu verwenden. Beachten Sie, dass Ihre Standardfehler bei dieser Methode zu gering sind. Sie haben die Unsicherheit, die genaue Überlebenszeit nicht zu kennen, nicht berücksichtigt. Wenn Sie intervallzensierte Überlebensschätzungen wünschen, verwenden Sie die icfitFunktion aus dem intervalPaket.

Eine andere Möglichkeit, die Auswirkung von Kovariaten auf die Überlebenszeit zu analysieren, ist die Verwendung einer intervallzensierten, nichtparametrischen Regression. Siehe das RPaket ICE: http://cran.r-project.org/web/packages/ICE/ICE.pdf . Sie müssen zuerst die Mittelpunkte der Überlebenszeit unterstellen, dann führen Sie eine lokale lineare Regression mit der locpolyFunktion aus dem npPaket durch. Es ist nicht so schwer, wie es sich anhört.

— wcampbell
quelle

Vielen Dank, ich verwende R / Mathematica und werde wahrscheinlich diese Pakete verwenden (und ich hatte noch nie von intcox gehört!), Wenn es darum geht, dies tatsächlich zu tun. Im Moment besteht mein Problem (das ich der Frage hinzugefügt habe) darin, mehrere Stichproben des Zerfalls derselben Personen über denselben Zeitraum zu haben. Denken Sie daran , ein Experiment als Wiederholung mal, ich versuche , dass die Daten zu verwenden , um besser auf die Überlebensfunktion abzuschätzen.

s

$s$

— Joachim Ziemssen

Ich denke, wir sind auch verwirrt - wie kann dieselbe Person mehrere Zerfallsraten haben? Eine Beobachtung kann nicht mehrere Werte für eine einzelne abhängige Variable haben. Ich denke, Sie sollten diese als separate Beobachtungen behandeln. Auf jeden Fall sollte es kein Problem geben, als Überlebensschätzung für diese Beobachtung zu verwenden.

\bar{M}

$\bar{M}$

— Wcampbell

Interessantes Problem ... Ich würde als Überlebensdaten verwenden, aber Sie möchten wahrscheinlich über die Varianz der Abklingzeiten für denselben Computer sprechen.

\bar{M}

$\bar{M}$

— Wcampbell

Es ist problematisch, dass es ein interessantes Problem ist! Ich werde weiter daran arbeiten und mir die Varianz ansehen, vielen Dank für den Rat.

— Joachim Ziemssen

Die Überlebensfunktion ist normalerweise rechtskontinuierlich, da es sich um eine Verteilungsfunktion handelt. Als Intervall verwende ich . $a_k:=[t_{k-1}, t_k),k=1,2,\cdots,n$

Sei und die wahre kontinuierliche Überlebens- und Zensurzeit für Subjekt in Probe . Beide Variablen können nicht direkt beobachtet werden, sondern nur in einem der Intervalle . Weiterhin sei das Intervall, in das fällt, im Wesentlichen eine diskrete Überlebenszeit, und in ähnlicher Weise für . Dann ist der Zensurindikator gegeben durch . $T_{ij}$ $C_{ij}$ $j$ $i$ $a_1,a_2,\cdots$ $X_{ij}$ $T_{ij}$ $\mathcal{C}_{ij}$ $C_{ij}$ $\delta_{ij}=\mathbf{1}(X_{ij} \le \mathcal{C}_{ij})$

Die Gefahrenfunktion für die diskrete Überlebenszeit ist definiert als die bedingte Wahrscheinlichkeit des Auftretens des Ereignisses im ten Zeitintervall, vorausgesetzt, es ist nicht vor dem ten Intervall aufgetreten , d. H. $h_{ij}(x)$ $x$ $x-1$

h_{i j} (x) = P (X_{i j} = x | X_{i j} \geq x)

$h_{ij}(x)=P(X_{ij}=x | X_{ij} \ge x)$

und die entsprechende Überlebensfunktion kann unter Verwendung des bedingten Produktgesetzes rekursiv geschrieben werden: $S_{ij}=P(X>x)$

S_{i j} (x) = P (X_{i j} > x | X_{i j} \geq x) \dots P (X_{i j} > 1 | X_{i j} \geq 1) = \prod_{m = 1}^{x} (1 - h_{i j} (m))

$S_{ij}(x)=P(X_{ij}>x | X_{ij}\ge x)\cdots P(X_{ij}>1 | X_{ij} \ge 1)=\prod_{m=1}^x (1-h_{ij}(m))$

Die Wahrscheinlichkeitsfunktion des Paares kann als Produkt zweier Arten von Subjekten konstruiert werden, nämlich derjenigen, die ein Ereignis bei erlebt haben ( ) und diejenigen, die bei zensiert wurden ( ): $(x_{ij},\delta_{ij})$ $x_{ij}$ $X_{ij}=x_{ij},\delta_{ij}=1$ $x_{ij}$ $X_{ij}>x_{ij},\delta_{ij}=0$

\begin{aligned} L & = \prod_{i = 1}^{s} \prod_{j = 1}^{n_{i}} [P (X_{i j} = x_{i j})]^{δ_{i j}} [P (X_{i j} > x_{i j})]^{1 - δ_{i j}} \\ = \prod_{i = 1}^{s} \prod_{j = 1}^{n_{i}} {{(h_{i j} (x_{i j}) \prod_{m = 1}^{x_{i j} - 1} [1 - h_{i j} (m)])}^{δ_{i j}} {(\prod_{m = 1}^{x_{i j}} [1 - h_{i j} (m)])}^{1 - δ_{i j}}} \\ = \prod_{i = 1}^{s} \prod_{j = 1}^{n_{i}} {{[\frac{h_{i j} (x_{i j})}{1 - h_{i j} (x_{i j})}]}^{δ_{i j}} \prod_{m = 1}^{x_{i j}} [1 - h_{i j} (m)]} . \end{aligned}

$\begin{split} \mathcal{L} &= \prod_{i=1}^{s}\prod_{j=1}^{n_{i}}[P(X_{ij}=x_{ij})]^{\delta_{ij}}[P(X_{ij}>x_{ij})]^{1-\delta_{ij}}\\ & = \prod_{i=1}^{s}\prod_{j=1}^{n_{i}}\left\{\left(h_{ij}(x_{ij})\prod_{m=1}^{x_{ij}-1}[1-h_{ij}(m)]\right)^{\delta_{ij}}\left( \prod_{m=1}^{x_{ij}}[1-h_{ij}(m)]\right)^{1-\delta_{ij}}\right\}\\ & = \prod_{i=1}^{s}\prod_{j=1}^{n_{i}}\left\{\left[\frac{h_{ij}(x_{ij})}{1-h_{ij}(x_{ij})}\right]^{\delta_{ij}}\prod_{m=1}^{x_{ij}}[1-h_{ij}(m)]\right\}. \end{split}$ und die entsprechende Log-Likelihood-Funktion lautet:

ℓ = \sum_{i = 1}^{M} \sum_{j = 1}^{n_{i}} {δ_{i j} \log [\frac{h_{i j} (x_{i j})}{1 - h_{i j} (x_{i j})}] + \sum_{m = 1}^{x_{i j}} \log [1 - h_{i j} (m)]}

$\ell=\sum_{i=1}^{M}\sum_{j=1}^{n_{i}}\left\{\delta_{ij}\log[\frac{h_{ij}(x_{ij})}{1-h_{ij}(x_{ij})}]+\sum_{m=1}^{x_{ij}}\log[1-h_{ij}(m)]\right\}$

Wenn wir nun unsere Daten in eine Ereignisverlaufsstruktur rekonstruieren, die in jedem Intervall eine Ereignisindikatorvariable für das te Intervall des ten Subjekts aus Probe aufzeichnet , können wir sehen, dass oben in umgeschrieben (summiert im Grunde alle bis zum letzten beobachteten Intervall dieses Subjekts, wenn er ein Ereignis hat, ist es 1, wenn zensiert 0). Dann können wir unsere Log-Wahrscheinlichkeit umschreiben als $y_{ijk}$ $k$ $j$ $i$ $\delta_{ij}\log[h_{ij}(x_{ij})/(1-h_{ij}(x_{ij})]$ $\sum_{k=1}^{x_{ij}}y_{ijk} \log[h_{ij}(k)/(1-h_{ij}(k))]$

ℓ = \sum_{i = 1}^{s} \sum_{j = 1}^{n_{i}} \sum_{k = 1}^{x_{i j}} {y_{i j k} \log h_{i j} (k) + (1 - y_{i j k}) \log [1 - h_{i j} (k)]} .

$\ell=\sum_{i=1}^s \sum_{j=1}^{n_i} \sum_{k=1}^{x_{ij}} \left\{ y_{ijk} \log h_{ij}(k) + (1 - y_{ijk}) \log [1 - h_{ij}(k)] \right\}.$ Dies ist identisch mit der Log-Wahrscheinlichkeit für eine binäre Zufallsvariable , jedoch jetzt mit dem Anteil für ein Ereignis im Intervall das durch .

y_{i j k}

$y_{ijk}$

p_{i j k}

$p_{ijk}$

k

$k$

h_{i j} (k)

$h_{ij}(k)$

Jetzt können wir endlich Ihre Frage beantworten. Wenn wir annehmen würden, dass im gleichen Intervall für verschiedene Subjekte in Probe und auch für verschiedene Proben iid ist , dann ist ist der geeignete Schätzer für . $y_{ijk}$ $j$ $i$ $\bar{M_j}=(\sum_i n_i)^{-1}\sum_{i=1}^{s}\sum_{j=1}^{n_i}y_{ijk}$ $h_{ij}(k)=h(k)$

Und der geeignete Schätzer für ist daher . $S(x)$ $\hat{S}(x)=\prod_{k=1}^{x}(1-\bar{M}_j)$

— Jujae
quelle