Intuition für kumulative Gefahrenfunktion (Überlebensanalyse)


17

Ich versuche, eine Vorstellung von jeder der Hauptfunktionen in der Aktuarwissenschaft zu bekommen (speziell für das Cox Proportional Hazards Model). Folgendes habe ich bisher:

  • f(x) : Beginnend mit der Startzeit die Wahrscheinlichkeitsverteilung, wann Sie sterben werden.
  • F(x) : nur die kumulative Verteilung. Wie viel Prozent der Bevölkerung werden zum Zeitpunkt tot sein?T
  • S(x) : . Wie viel Prozent der Bevölkerung werden zum Zeitpunkt am Leben sein?1-F(x)T
  • h(x) : Gefahrenfunktion. Zu einem gegebenen Zeitpunkt der noch lebenden Personen kann dies verwendet werden, um abzuschätzen, wie viele Personen in dem nächsten Zeitintervall sterben werden, oder, wenn das Intervall> 0 ist, die Wahrscheinlichkeit des sofortigen Todes.T
  • H(x) : kumulative Gefahr. Keine Ahnung.

Welche Idee steckt dahinter, Gefahrenwerte zu kombinieren, insbesondere wenn sie kontinuierlich sind? Wenn wir ein diskretes Beispiel mit Sterblichkeitsraten über vier Jahreszeiten verwenden und die Hazard-Funktion wie folgt lautet:

  • Ab dem Frühjahr sind alle am Leben und 20% sterben
  • Jetzt im Sommer werden von den verbleibenden 50% sterben
  • Jetzt im Herbst werden von den verbleibenden 75% sterben
  • Die letzte Jahreszeit ist der Winter. Von den verbleibenden sterben 100%

Dann ist das kumulative Risiko 20%, 70%, 145%, 245% ?? Was bedeutet das und warum ist das nützlich?


1
Dein sollte oder umgekehrt. xTx
Glen_b

5
In Bezug auf haben Sie einen Fehler (obwohl es eine sehr häufige Verwirrung ist). Sie schreiben, "Intervall-> 0," sofortige "Todeswahrscheinlichkeit". Eine korrekte Aussage wäre die "augenblickliche Sterblichkeitsrate ". Dies kann keine Wahrscheinlichkeit sein, da es sich um eine durch geteilte Wahrscheinlichkeit handelt . außerdem könnte es> 1 sein. d th(x)dt
gung - Wiedereinsetzung von Monica

Antworten:


6

Das Kombinieren von Anteilen, die wie Sie sterben, birgt keine kumulative Gefahr für Sie. Die Gefährdungsrate in kontinuierlicher Zeit ist eine bedingte Wahrscheinlichkeit, dass in einem sehr kurzen Intervall ein Ereignis eintritt:

h(t)=limΔt0P(t<Tt+Δt|T>t)Δt

Die kumulative Gefährdung ist die Integration der (augenblicklichen) Gefährdungsrate über Alter / Zeit. Es ist wie das Aufsummieren von Wahrscheinlichkeiten, aber da sehr klein ist, sind diese Wahrscheinlichkeiten auch kleine Zahlen (z. B. kann die Sterberate im Alter von etwa 30 Jahren bei etwa 0,004 liegen). Die Gefährdungsrate hängt davon ab, dass das Ereignis nicht vor eingetreten ist. Für eine Population kann es sich also über 1 summieren.Δtt

Sie können eine Sterbetafel für Menschen nachschlagen, obwohl dies eine diskrete Zeitformulierung ist, und versuchen, zu akkumulieren .mx

Wenn Sie R verwenden, ist hier ein kleines Beispiel für die Annäherung dieser Funktionen an die Anzahl der Todesfälle in jedem 1-Jahres-Altersintervall:

dx <-  c(3184L, 268L, 145L, 81L, 64L, 81L, 101L, 50L, 72L, 76L, 50L, 
         62L, 65L, 95L, 86L, 120L, 86L, 110L, 144L, 147L, 206L, 244L, 
         175L, 227L, 182L, 227L, 205L, 196L, 202L, 154L, 218L, 279L, 193L, 
         223L, 227L, 300L, 226L, 256L, 259L, 282L, 303L, 373L, 412L, 297L, 
         436L, 402L, 356L, 485L, 495L, 597L, 645L, 535L, 646L, 851L, 689L, 
         823L, 927L, 878L, 1036L, 1070L, 971L, 1225L, 1298L, 1539L, 1544L, 
         1673L, 1700L, 1909L, 2253L, 2388L, 2578L, 2353L, 2824L, 2909L, 
         2994L, 2970L, 2929L, 3401L, 3267L, 3411L, 3532L, 3090L, 3163L, 
         3060L, 2870L, 2650L, 2405L, 2143L, 1872L, 1601L, 1340L, 1095L, 
         872L, 677L, 512L, 376L, 268L, 186L, 125L, 81L, 51L, 31L, 18L, 
         11L, 6L, 3L, 2L)

x <- 0:(length(dx)-1) # age vector

plot((dx/sum(dx))/(1-cumsum(dx/sum(dx))), t="l", xlab="age", ylab="h(t)", 
     main="h(t)", log="y")
plot(cumsum((dx/sum(dx))/(1-cumsum(dx/sum(dx)))), t="l", xlab="age", ylab="H(t)", 
     main="H(t)")

Hoffe das hilft.


Ist es richtig zu sagen, dass h (t) * dt die Wahrscheinlichkeit ist, dass ein Ereignis in einem Intervall der Länge dt um t auftritt? Daher ist der Wert h (t) die Wahrscheinlichkeit, dass ein Ereignis innerhalb einer um t zentrierten Zeiteinheit auftritt. Dies wäre nur dann der Fall , wenn h (t) <= 1
Luft

10

Das Buch "Eine Einführung in die Überlebensanalyse mit Stata" (2. Auflage) von Mario Cleves enthält ein gutes Kapitel zu diesem Thema.

Sie finden das Kapitel auf Google Bücher , S. 13-15. Aber ich würde raten, das ganze Kapitel 2 zu lesen.

Hier ist die Kurzform:

  • "Es misst den Gesamtbetrag des Risikos, das bis zum Zeitpunkt t akkumuliert wurde." (S. 8)
  • Zähldateninterpretation: "Gibt an, wie oft (mathematisch) Fehler (oder andere Ereignisse) über einen bestimmten Zeitraum beobachtet werden, wenn nur das Fehlerereignis wiederholbar wäre." (S. 13)

5

Ich könnte vermuten, dass es aufgrund seiner Verwendung in Diagnoseplots bemerkenswert ist:

(1) In dem Cox-Proportional-Hazards-Modell ist , wobei und die Koeffizienten- bzw. Kovariatenvektoren sind. ist die Basislinien-Gefahrenfunktion; & so ist . Wenn Sie die Schätzung gegen zeichnen, folgen verschiedene Kovariatenmuster parallelen Kurven, vorausgesetzt, die Proportionalitätsannahme ist korrekt.β Z h 0 ( x ) log H ( x ) = β T z + H 0 ( x ) log H ( x ) xh(x)=eβTzh0(x)βzh0(x)LogH(x)=βTz+H0(x)LogH^(x)x

(2) Im Weibull-Modell ist , wobei & sind die Skalierungs- und Formparameter; & so . Wenn Sie die Schätzung gegen plotten , erhalten Sie eine gerade Linie mit Steigung & Achsenabschnitt vorausgesetzt, die Weibull-Annahme ist korrekt. Und natürlich deutet eine Steigung nahe 1 darauf hin, dass ein Exponentialmodell passen könnte.θαlogH(x)=αlogx-αlogθlogH(x)logxα-αlogθh(x)=αθ(xθ)α-1θαLogH(x)=αLogx-αLogθLogH^(x)Logxα^-α^Logθ^

Eine intuitive Interpretation von ist die erwartete Anzahl von Todesfällen eines Individuums bis zum Zeitpunkt wenn das Individuum nach jedem Tod auferstehen würde (ohne die Zeit auf Null zurückzusetzen).xH(x)x


3

In Umschreibung dessen, was @Scortchi sagt, möchte ich betonen, dass die kumulative Hazard-Funktion keine gute Interpretation hat, und als solche würde ich nicht versuchen, sie als Methode zur Interpretation der Ergebnisse zu verwenden. Wenn Sie einem nicht-statistischen Forscher mitteilen, dass die kumulativen Gefahren unterschiedlich sind, erhalten Sie höchstwahrscheinlich eine "mm-hm" -Antwort. Dann werden Sie nie wieder und nicht in angemessener Weise nach dem Thema fragen.

Die kumulative Gefährdungsfunktion erweist sich jedoch mathematisch als sehr nützlich, z. B. als allgemeine Möglichkeit, die Gefährdungsfunktion und die Überlebensfunktion zu verknüpfen. Daher ist es wichtig zu wissen, wie hoch das kumulative Risiko ist und wie es für verschiedene statistische Methoden verwendet werden kann. Im Allgemeinen halte ich es jedoch nicht für besonders nützlich, über reale Daten in Bezug auf kumulative Gefahren nachzudenken.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.