Warum wird angenommen, dass die Überlebenszeiten exponentiell verteilt sind?


36

Ich lerne die Überlebensanalyse aus diesem Beitrag über UCLA IDRE und bin in Abschnitt 1.2.1 aufgefallen . Das Tutorial sagt:

... wenn bekannt ist, dass die Überlebenszeiten exponentiell verteilt sind , dann die Wahrscheinlichkeit, eine Überlebenszeit zu beobachten ...

Warum wird angenommen, dass die Überlebenszeiten exponentiell verteilt sind? Es erscheint mir sehr unnatürlich.

Warum nicht normal verteilt? Angenommen, wir untersuchen die Lebensspanne einer Kreatur unter bestimmten Bedingungen (z. B. Anzahl der Tage). Sollte sie sich mehr um eine Zahl mit einer gewissen Varianz drehen (z. B. 100 Tage mit einer Varianz von 3 Tagen)?

Wenn wir wollen, dass die Zeit absolut positiv ist, warum nicht eine Normalverteilung mit höherem Mittelwert und sehr geringer Varianz erstellen (es gibt fast keine Chance, eine negative Zahl zu erhalten)?


9
Aus heuristischer Sicht kann ich mir die Normalverteilung nicht als einen intuitiven Weg vorstellen, um die Ausfallzeit zu modellieren. Es ist in keiner meiner angewandten Arbeiten aufgetaucht. Sie sind immer sehr weit nach rechts geneigt. Ich denke, Normalverteilungen entstehen heuristisch als Durchschnittswerte, während Überlebenszeiten heuristisch als Extremwerte entstehen, wie zum Beispiel die Auswirkung einer konstanten Gefährdung, die auf eine Folge paralleler oder serieller Komponenten angewendet wird.
AdamO

6
Ich stimme @AdamO in Bezug auf die extremen Verteilungen zu, die dem Überleben und der Zeit bis zum Versagen eigen sind. Wie andere angemerkt haben, haben exponentielle Annahmen den Vorteil, dass sie nachvollziehbar sind. Das größte Problem bei ihnen ist die implizite Annahme einer konstanten Zerfallsrate. Andere funktionale Formen sind möglich und werden je nach Software standardmäßig angeboten, z. B. generalisiertes Gamma. Anhand von Anpassungsgütetests können unterschiedliche Funktionsformen und -annahmen getestet werden. Der beste Text zur Überlebensmodellierung ist Paul Allisons Survival Analysis Using SAS, 2nd ed. Vergessen Sie SAS-es ist eine hervorragende Bewertung
Mike Hunter

8
Ich würde bemerken, dass das allererste Wort in Ihrem Zitat " wenn " ist
Fomite

Antworten:


40

Exponentialverteilungen werden häufig zur Modellierung der Überlebenszeiten verwendet, da sie die einfachsten Verteilungen sind, die zur Charakterisierung von Überlebens- / Zuverlässigkeitsdaten verwendet werden können. Dies liegt daran, dass sie memorylos sind und die Hazard-Funktion daher eine konstante W / R / T-Zeit ist, was die Analyse sehr einfach macht. Diese Art von Annahme kann zum Beispiel für einige Arten von elektronischen Bauteilen gelten, wie zum Beispiel für hochwertige integrierte Schaltungen. Ich bin sicher, Sie können sich weitere Beispiele vorstellen, bei denen davon ausgegangen werden kann, dass der Einfluss der Zeit auf die Gefahr vernachlässigbar ist.

Sie haben jedoch Recht zu bemerken, dass dies in vielen Fällen keine angemessene Annahme wäre. Normalverteilungen können in manchen Situationen in Ordnung sein, obwohl offensichtlich negative Überlebenszeiten bedeutungslos sind. Aus diesem Grund werden häufig logarithmische Normalverteilungen in Betracht gezogen. Andere gebräuchliche Auswahlmöglichkeiten sind Weibull, Kleinster Extremwert, Größter Extremwert, Logistik usw. Eine sinnvolle Wahl für das Modell würde durch die Erfahrung des Fachgebiets und die Darstellung der Wahrscheinlichkeit getroffen . Natürlich können Sie auch eine nicht parametrische Modellierung in Betracht ziehen.

Eine gute Referenz für die klassische parametrische Modellierung in der Überlebensanalyse ist: William Q. Meeker und Luis A. Escobar (1998). Statistische Methoden für Zuverlässigkeitsdaten , Wiley


Könnten Sie mehr über "Hazard-Funktion ist konstant w / r / t Zeit" ausarbeiten?
Haitao Du

4
@ hxd1011: Vermutlich bezieht sich der Autor bei "Hazard Function" auf die Funktion die durch r X ( t ) = f X ( t ) / ˉ F X ( t ) gegeben ist , wobei f X das PDF von X und ˉ F ist X ist der Schwanz von X ( ˉ F X ( t ) = 1 - F X ( t ) = trXrX(t)=fX(t)/F¯X(t)fXXF¯XX ). Dies wird auch alsAusfallrate bezeichnet. Die Beobachtung istdass für Exp ( λ ) , die Ausfallrate r ( t ) = ( λ e - λ t ) / ( e - λ t ) = λ , die konstant ist. Darüber hinaus ist es nicht schwer zu zeigen, dassnurdie Exponentialverteilung diese Eigenschaft hat. F¯X(t)=1-FX(t)=tfX(x)dxExp(λ)r(t)=(λeλt)/(eλt)=λ
Wchargin

22

Um ein bisschen mathematische Intuition dahinter zu bringen, wie Exponenten in Überlebensverteilungen auftauchen:

Die Wahrscheinlichkeitsdichte einer Überlebensvariablen ist , wobei h ( t ) die aktuelle Gefahr ist (Risiko für eine Person, an diesem Tag zu "sterben") und S ( t ) die Wahrscheinlichkeit, dass eine Person bis t überlebt . S ( t ) kann erweitert werden als die Wahrscheinlichkeit, dass eine Person Tag 1 und Tag 2 ... bis Tag t überlebt hat . Dann: P ( s u r v if(t)=h(t)S(t)h(t)S(t)tS(t)tP ( s u r v i v e d d a y s 1 , 2 , . . . , t ) = ( 1 - h ( t ) ) t mit konstante und kleine Gefahr λ können wir verwenden: e - λ1 -

P(survichved deiny t)=1-h(t)
P(survichved deinys 1,2,...,t)=(1-h(t))t
λ um S ( t ) als einfach ( 1 - λ ) te - λ t zu approximieren , und die Wahrscheinlichkeitsdichte ist dann f ( t ) = h ( t ) S ( t ) = λ e - λ t
e-λ1-λ
S(t)
(1-λ)te-λt
f(t)=h(t)S(t)=λeλt

Haftungsausschluss: Dies ist in keiner Weise ein Versuch, eine korrekte Ableitung des PDF-Dokuments zu erreichen. Ich habe nur gedacht, dass dies ein ordentlicher Zufall ist, und begrüße Kommentare dazu, warum dies richtig / falsch ist.

BEARBEITEN: die Annäherung per Hinweis von @SamT geändert, siehe Kommentare zur Diskussion.


1
+1 Dies hat mir geholfen, die Eigenschaften der Exponentialverteilung besser zu verstehen.
Haitao Du

1
S(t)=...tλt(1+x/n)n exx=o(n)limt(1λt/t)t=eλtt

tλ

1
λλt
(1+x/n)nex
λ
e-λt=(e-λ)t(1-λ)t.
λ=λt/t
e-λt(1-λt/t)t.

Wenn Sie sich bewerben, werden Sie vielleicht das Gefühl haben, dass dies etwas wählerisch ist, aber der Punkt ist, dass die Begründung nicht gültig ist. Ähnlich ungültige Schritte sind möglicherweise nicht zutreffend. Natürlich können Sie, wenn sich jemand beworben hat, glücklich sein, diesen Schritt zu tun, in den meisten Fällen als zutreffend zu erachten und sich nicht um die Einzelheiten zu kümmern! Als jemand, der reine Mathematik macht, kommt das für mich nicht in Frage, aber ich verstehe, dass wir sowohl reine als auch angewandte Mathematik brauchen! (Und besonders in Statistiken ist es gut, sich nicht in reinen technischen
Sam T

11

Sie werden mit ziemlicher Sicherheit Zuverlässigkeitstechniken und Vorhersagen zur gründlichen Analyse der Überlebenszeiten heranziehen wollen. Innerhalb dessen gibt es einige Distributionen, die häufig verwendet werden:

Die Weibull-Verteilung (oder "Badewanne" -Verteilung) ist die komplexeste. Es gibt drei Arten von Fehlermodi, die in verschiedenen Altersstufen vorherrschen: Säuglingssterblichkeit (bei denen defekte Teile früh brechen), verursachte Fehler (bei denen Teile während der gesamten Lebensdauer des Systems zufällig brechen) und Verschleiß (bei denen Teile abbrechen) verwenden). Wie verwendet, hat es ein PDF, das wie "\ __ /" aussieht. Insbesondere bei einigen elektronischen Geräten kann es zu Einbrennzeiten kommen. Dies bedeutet, dass diese Teile bereits über den "\" - Teil der Kurve gesteuert wurden und frühzeitige Ausfälle (im Idealfall) ausgeschlossen wurden. Leider bricht die Weibull-Analyse schnell zusammenWenn Ihre Teile nicht homogen sind (einschließlich der Verwendungsumgebung!) oder wenn Sie sie zu unterschiedlichen Zeitpunkten verwenden (z. B. wenn einige Teile direkt verwendet werden und andere Teile zuerst eingelagert werden, wird die "zufällige Ausfallrate" erhöht aufgrund der Mischung von zwei Zeitmessungen (Betriebsstunden vs. Nutzungsstunden) signifikant unterschiedlich sein.

Normalverteilungen sind fast immer falsch. Jede Normalverteilung hat negative Werte, keine Zuverlässigkeitsverteilung. Sie können manchmal eine nützliche Annäherung sein, aber wenn dies zutrifft, sehen Sie sowieso fast immer eine logarithmische Normalität, sodass Sie auch einfach die richtige Verteilung verwenden können. Log-Normal-Verteilungen werden korrekt verwendet, wenn Sie abnutzende und vernachlässigbare zufällige Fehler haben, und unter keinen anderen Umständen! Wie die Normalverteilung sind sie so flexibel, dass Sie sie für die meisten Daten zwingen können. Sie müssen diesem Drang widerstehen und prüfen, ob die Umstände sinnvoll sind.

Schließlich ist die Exponentialverteilung das eigentliche Arbeitspferd. Sie wissen oft nicht, wie alt Teile sind (z. B. wenn Teile nicht serialisiert sind und zu unterschiedlichen Zeiten in Betrieb genommen wurden), sodass eine speicherbasierte Verteilung nicht möglich ist. Zusätzlich haben viele Teile eine Abnutzungszeit, die so beliebig lang ist, dass sie entweder vollständig von induzierten Ausfällen oder außerhalb des nützlichen Zeitrahmens der Analyse dominiert wird. Es ist also vielleicht kein so perfektes Modell wie andere Distributionen, aber es kümmert sich nicht um Dinge, die sie auslösen. Wenn Sie eine MTTF (Population Time / Failure Count) haben, haben Sie eine exponentielle Verteilung. Darüber hinaus benötigen Sie kein physikalisches Verständnis Ihres Systems. Sie können exponentielle Schätzungen tun nurbasierend auf beobachteten Teil-MTTFs (unter der Annahme einer ausreichend großen Stichprobe), und sie kommen ziemlich nah raus. Es ist auch widerstandsfähig gegen Ursachen: Wenn sich jemand jeden zweiten Monat langweilt und mit einem Teil Krocket spielt, bis es kaputt geht, werden exponentielle Gründe dafür herangezogen (es rollt in die MTTF). Exponential ist auch so einfach, dass Sie Back-of-the-Envelope-Berechnungen für die Verfügbarkeit redundanter Systeme und ähnlicher Systeme durchführen können, was die Nützlichkeit erheblich erhöht.


3
Dies ist eine gute Antwort, aber beachten Sie, dass die Weibull-Verteilung nicht die "komplexeste" parametrische Verteilung für Überlebensmodelle ist. Ich bin sicher nicht , ob es so etwas sein könnte, aber auf jeden Fall in Bezug auf die Weibull gibt es die generali Gamma - Verteilung , und die generali F - Verteilung , die beide die Weibull als Sonderfall nehmen kann durch Parameter auf 0 setzen
gung - Wiedereinsetzung von Monica

Es ist das komplexeste, das üblicherweise in der Zuverlässigkeitstechnik verwendet wird (erster Absatz :). Ich bin mit Ihrem Punkt nicht einverstanden, aber ich habe auch nie gesehen, dass einer tatsächlich verwendet wird (Aufzeichnungen darüber, wie sie verwendet werden könnten, ja. Tatsächliche Implementierung, nein )
fectin-free Monica

9

Um Ihre explizite Frage zu beantworten, können Sie die Normalverteilung nicht zum Überleben verwenden, da die Normalverteilung gegen unendlich geht und das Überleben absolut nicht negativ ist. Darüber hinaus glaube ich nicht, dass es wahr ist, dass "Überlebenszeiten von niemandem in der Realität als exponentiell verteilt angenommen werden".

zt

>1<1

Am häufigsten sind Überlebensverteilungen komplex und passen nicht gut zu einer benannten Verteilung. Die Leute machen sich normalerweise nicht einmal die Mühe, herauszufinden, um welche Verteilung es sich handelt. Das macht das Cox-Modell für proportionale Gefährdungen so beliebt: Es ist semiparametrisch, da das Grundlinienrisiko vollständig nicht spezifiziert werden kann, während der Rest des Modells hinsichtlich seiner Beziehung zur nicht spezifizierten Grundlinie parametrisch sein kann.


4
"Außerdem glaube ich nicht, dass" die Überlebenszeiten exponentiell "von irgendjemandem in der Realität verteilt" werden. Ich habe festgestellt, dass es in der Epidemiologie häufig vorkommt, normalerweise implizit.
Fomite

1
@gung, könnten Sie bitte erklären - es ist semiparametrisch, dass das Grundlinienrisiko vollständig nicht spezifiziert werden kann, aber der Rest des Modells kann in Bezug auf seine Beziehung zur nicht spezifizierten Grundlinie parametrisch sein
Gaurav Singhal

7

Eine gewisse Ökologie könnte helfen, das "Warum" hinter dieser Frage zu beantworten.

Der Grund, warum die Exponentialverteilung zur Modellierung des Überlebens herangezogen wird, liegt in den Lebensstrategien der in der Natur lebenden Organismen. In Bezug auf die Überlebensstrategie gibt es im Wesentlichen zwei Extreme, wobei ein gewisser Spielraum für den Mittelweg besteht.

Hier ist ein Bild, das zeigt, was ich meine (mit freundlicher Genehmigung der Khan Academy):

https://www.khanacademy.org/science/biology/ecology/population-ecology/a/life-tables-survivorship-age-sex-structure

In diesem Diagramm werden überlebende Personen auf der Y-Achse und "Prozentsatz der maximalen Lebenserwartung" (auch als Annäherung an das Alter der Person bezeichnet) auf der X-Achse dargestellt.

Typ I ist der Mensch, der Organismen modelliert, deren Nachkommen extrem gepflegt sind und eine sehr niedrige Kindersterblichkeit gewährleisten. Häufig haben diese Arten nur sehr wenige Nachkommen, da jeder einen großen Teil der Zeit und Mühe der Eltern in Anspruch nimmt. Die meisten Todesfälle von Organismen des Typs I sind die im Alter auftretenden Komplikationen. Die Strategie ist hier eine hohe Investition für eine hohe Auszahlung in ein langes, produktives Leben, wenn auch auf Kosten der bloßen Zahlen.

Im Gegensatz dazu wird Typ III von Bäumen modelliert (es können aber auch Plankton, Korallen, Laichfische, viele Arten von Insekten usw. sein), bei denen die Eltern relativ wenig in jeden Nachwuchs investieren, aber eine Tonne von ihnen hervorbringen, in der Hoffnung, dass einige es tun werden überleben. Die Strategie hier ist "sprühen und beten", in der Hoffnung, dass die meisten Nachkommen zwar relativ schnell von Raubtieren vernichtet werden, die wenigen jedoch, die lange genug überleben, um zu wachsen, immer schwieriger zu töten werden und schließlich (praktisch) unmöglich werden gegessen. Währenddessen bringen diese Individuen eine große Anzahl von Nachkommen hervor, in der Hoffnung, dass einige ebenfalls in ihrem eigenen Alter überleben werden.

Typ II ist eine mittelmäßige Strategie mit moderaten Investitionen der Eltern für eine moderate Überlebensfähigkeit in jedem Alter.

Ich hatte einen Ökologieprofessor, der das so formulierte:

"Typ III (Bäume) ist die" Kurve der Hoffnung ", denn je länger ein Individuum überlebt, desto wahrscheinlicher wird es, dass es weiterhin überlebt. Typ I (Menschen) ist die" Kurve der Verzweiflung ", denn je länger du lebst, desto wahrscheinlicher wird es, dass du sterben wirst. "


Dies ist interessant, aber beachten Sie, dass die Kindersterblichkeit für Menschen vor der modernen Medizin (und heute noch an einigen Orten auf der Welt) sehr hoch ist. Das Grundüberleben des Menschen wird häufig mit dem " Badewannenrisiko " modelliert .
gung - Wiedereinsetzung von Monica

@gung Absolut, dies ist eine breite Verallgemeinerung und es gibt Unterschiede zwischen Menschen in verschiedenen Regionen und Zeiträumen. Der Hauptunterschied wird klarer, wenn Sie Extreme vergleichen, dh westliche Familien (ca. 2,5 Kinder pro Paar, von denen die meisten nicht im Säuglingsalter sterben) mit Korallen oder laichenden Fischen (Millionen von Eiern, die pro Paarungszyklus freigesetzt werden, die meisten davon) sterben, weil sie gefressen werden, verhungern, sich in gefährlichem Wasser befinden oder einfach nicht in ein bewohnbares Ziel treiben)
CaffeineConnoisseur

1
Ich bin zwar nur für Erklärungen aus der Ökologie, aber ich stelle fest, dass Annahmen wie diese auch für Dinge wie Festplatten und Flugzeugtriebwerke gemacht werden.
Fomite

6

Dies beantwortet die Frage nicht direkt, aber ich denke, es ist sehr wichtig zu erwähnen, und passt nicht gut in einen einzelnen Kommentar.

Während die Exponentialverteilung eine sehr gute theoretische Ableitung hat und die erzeugten Daten daher den in der Exponentialverteilung angenommenen Mechanismen folgen, sollte sie theoretisch optimale Schätzungen liefern. In der Praxis muss ich noch auf einen Datensatz stoßen, bei dem die Exponentialverteilung gerade erzeugt Nähe zu akzeptablen Ergebnissen (natürlich ist dies abhängig von den Datentypen I analysiert haben, fast alle biologischen Daten). Ich habe zum Beispiel gerade versucht, ein Modell mit einer Vielzahl von Verteilungen unter Verwendung des ersten Datensatzes anzupassen, den ich in meinem R-Paket finden konnte. Zur Überprüfung des Modells der Basisverteilung vergleichen wir normalerweise das semiparametrische Modell. Schauen Sie sich die Ergebnisse an.

Überlebenskurven

Bei der Weibull-, log-logistischen und log-normalen Verteilung gibt es keinen absolut klaren Sieger in Bezug auf die richtige Anpassung. Aber es gibt einen klaren Verlierer: die Exponentialverteilung! Ich habe die Erfahrung gemacht, dass dieses Ausmaß der Fehlanpassung keine Ausnahme darstellt, sondern eher die Norm für die Exponentialverteilung.

Warum? Weil die Exponentialverteilung eine einzelne Parameterfamilie ist. Wenn ich also den Mittelwert dieser Verteilung spezifiziere, habe ich alle anderen Momente der Verteilung spezifiziert. Diese anderen Familien sind alle zwei Parameterfamilien. Dadurch haben diese Familien eine viel größere Flexibilität, um sich an die Daten selbst anzupassen.

Denken Sie nun daran, dass die Weibull-Verteilung als Sonderfall die Exponentialverteilung hat (dh wenn der Formparameter = 1 ist). Selbst wenn die Daten wirklich exponentiell sind, fügen wir unseren Schätzungen nur ein wenig mehr Rauschen hinzu, indem wir eine Weibull-Verteilung über eine Exponentialverteilung verwenden. Daher würde ich niemals empfehlen, die Exponentialverteilung zu verwenden, um reale Daten zu modellieren (und ich bin gespannt, ob Leser ein Beispiel dafür haben, wann dies tatsächlich eine gute Idee ist).


1
Ich bin von dieser Antwort nicht überzeugt: 1) "Mit dem ersten Datensatz, den ich in meinem R-Paket finden konnte" ... Wirklich? ... auf stats.stackexchange? Eine zufällige Stichprobe und wir ziehen allgemeine Schlussfolgerungen? 1b) Für Modelle, bei denen die Ausfallzeit tendenziell um einen bestimmten Wert verteilt ist (wie das Leben von Menschen), sind Verteilungen wie Gamma, Weibull usw. besser geeignet. Wenn Ereignisse gleich wahrscheinlich sind, ist eine Exponentialverteilung besser geeignet. Ich wette, Ihr "erster Datensatz" oben ist von der ersten Art. 2) Alle anderen Modelle haben 2 Parameter, man sollte zB den Bayes-Faktor verwenden, um die Modelle zu vergleichen.
Luca Citi

2
@LucaCiti: "der erste Datensatz in meinem R-Paket" bedeutet den ersten Datensatz in dem R-Paket, den ich veröffentlicht habe (icenReg). Und ich habe bemerkt, dass meine Erfahrung mit der Exponentialverteilung, die immer eine schlechte Anpassung hat, von der Art der Daten abhängt, die ich analysiert habe. fast ausschließlich biologische Daten. Schließlich bin ich, wie ich am Ende festgestellt habe, sehr neugierig, echte Anwendungsbeispiele zu hören, bei denen es einen überzeugenden Grund gibt, die Exponentialverteilung zu verwenden. Wenn Sie also eine haben, teilen Sie diese bitte mit.
Cliff AB

1
Ein Szenario, in dem Sie möglicherweise die Exponentialverteilung verwenden möchten, wäre, wenn (a) Sie viele historische Daten hatten, die zeigten, dass die Daten wirklich gut mit einer Exponentialverteilung approximiert wurden, und (b) Sie mit kleinen Stichproben Rückschlüsse ziehen mussten ( dh n <10). Aber ich kenne keine wirklichen Anwendungen wie diese. Möglicherweise in irgendeiner Art Herstellungsqualitätskontrollproblem?
Cliff AB

1
Hallo Cliff, danke, dass du dir die Zeit genommen hast, auf meinen Kommentar zu antworten. Ich denke, eine Verteilung wie die Weibull passt grob gesagt besser zu Situationen, die Fragen wie "Wie lange ist die Lebensdauer von einzelnen x in meiner Stichprobe?" Oder "Wann wird Neuron x wieder ausgelöst?" Oder "Wann wird Glühwürmchen x erneut blinken?" Entsprechen ". Umgekehrt modelliert eine exponentielle Verteilung Fragen wie "Wann wird der nächste Tod in meiner Population erwartet?", "Wann wird das nächste Neuron feuern?" Oder "Wann wird ein Glühwürmchen im Schwarm blinken?"
Luca Citi

@LucaCiti; ha, ich habe gerade erfahren, dass dein früherer Sack ein Witz war, weil du eine Schlussfolgerung mit n = 1 gezogen hast. Ich weiß nicht, wie ich ihn das erste Mal übersehen habe. Wenn wir zu meiner Verteidigung die Theorie haben, dass der Schätzer asymptotisch normal sein sollte, aber 4+ Standardabweichungen von den anderen asymptotisch normalen Schätzungen entfernt sind, dann können wir das! Aber im Ernst, es ist nicht diese eine Handlung, die mich überzeugt hat, sondern dasselbe Maß an Abweichung durchgehend zu sehen. Ich kann blockiert werden, wenn ich über 20 Plots mit schlechten Exponentialanpassungen spamme.
Cliff AB

4

Ein weiterer Grund, warum die Exponentialverteilung häufig auftritt, um das Intervall zwischen Ereignissen zu modellieren, ist der folgende.

Es ist allgemein bekannt, dass unter bestimmten Voraussetzungen die Summe einer großen Anzahl unabhängiger Zufallsvariablen einer Gaußschen Verteilung nahe kommt. Ein ähnliches Theorem gilt für Erneuerungsprozesse , dh für stochastische Modelle für Ereignisse, die zeitlich zufällig mit IID-Intervallen zwischen Ereignissen auftreten. Tatsächlich besagt das Palm-Khintchine-Theorem , dass sich die Überlagerung einer großen Anzahl von (nicht unbedingt poissonschen) Erneuerungsprozessen asymptotisch wie ein Poisson-Prozess verhält . Die Zwischenereignisintervalle eines Poisson-Prozesses sind exponentiell verteilt.


3

tl; dr - Eine Expontentialverteilung ist gleichbedeutend mit der Annahme, dass Individuen zu jedem Zeitpunkt genauso wahrscheinlich sterben wie alle anderen.

Ableitung

  1. Nehmen Sie an, dass ein lebendes Individuum zu jedem Zeitpunkt genauso wahrscheinlich stirbt wie zu jedem anderen.

  2. -dPdtP

-dPdt  P
  1. Das Lösen auf WolframAlpha zeigt:

P(t)=c1e-t

Die Bevölkerung folgt also einer exponentiellen Verteilung.

Mathe-Hinweis

c0P(t0)t0

P(t)=e-tP(t0).

Reality-Check

Die exponentielle Verteilung geht davon aus, dass Menschen in der Bevölkerung im Laufe der Zeit tendenziell mit der gleichen Rate sterben. In Wirklichkeit werden die Sterbeziffern für endliche Bevölkerungsgruppen tendenziell variieren.

Um bessere Verteilungen zu erzielen, sind stochastische Differentialgleichungen erforderlich . Dann können wir nicht sagen, dass es eine konstante Todeswahrscheinlichkeit gibt; Vielmehr müssen wir eine Verteilung für die Sterbewahrscheinlichkeiten jedes Einzelnen zu einem bestimmten Zeitpunkt erstellen, dann diese verschiedenen Möglichkeitsbäume für die gesamte Bevölkerung kombinieren und diese Differentialgleichung im Laufe der Zeit lösen.

Ich kann mich nicht erinnern, dass ich das in irgendetwas zuvor online gesehen habe, also werden Sie wahrscheinlich nicht darauf stoßen. Dies ist jedoch der nächste Modellierungsschritt, wenn Sie die Exponentialverteilung verbessern möchten.


3

(Beachten Sie, dass in dem von Ihnen zitierten Teil die Aussage bedingt war; der Satz selbst hat kein exponentielles Überleben angenommen, sondern eine Konsequenz daraus. Dennoch ist die Annahme eines exponentiellen Überlebens weit verbreitet, weshalb es sich lohnt, sich mit der Frage des "Warum" zu befassen exponentiell "und" warum nicht normal "- da das erste schon ziemlich gut abgedeckt ist, werde ich mich mehr auf das zweite konzentrieren)

Normalerweise verteilte Überlebenszeiten sind nicht sinnvoll, da die Wahrscheinlichkeit, dass die Überlebenszeit negativ ist, ungleich Null ist.

Wenn Sie Ihre Überlegung dann auf Normalverteilungen beschränken, bei denen die Wahrscheinlichkeit nahezu null ist, können Sie keine Überlebensdaten modellieren, bei denen die Wahrscheinlichkeit einer kurzen Überlebenszeit vernünftig ist:

Überlebenszeitverteilungen - normaler Mittelwert 100 sd 10 gegenüber einer bestimmten Verteilung mit Mittelwert 100 und sd 42, die eine Überlebenswahrscheinlichkeit von mehr als 20% zwischen 0 und 50 aufweist

Möglicherweise sind gelegentlich Überlebenszeiten, bei denen es kaum zu kurzen Überlebenszeiten kommt, vernünftig, aber Sie benötigen Verteilungen, die in der Praxis sinnvoll sind. In der Regel beobachten Sie kurze und lange Überlebenszeiten (und alles dazwischen) mit einer typischen Abweichung Verteilung der Überlebenszeiten). Eine unveränderte Normalverteilung ist in der Praxis selten sinnvoll.

[Eine verkürzte Normale ist möglicherweise häufiger eine vernünftige grobe Annäherung als eine Normale, aber andere Verteilungen sind häufig besser.]

Das konstante Risiko des Exponentials ist manchmal eine vernünftige Annäherung an die Überlebenszeiten. Wenn beispielsweise "zufällige Ereignisse" wie Unfälle einen wesentlichen Beitrag zur Sterblichkeit leisten, funktioniert das exponentielle Überleben ziemlich gut. (Bei Tierpopulationen können zum Beispiel sowohl Raubtiere als auch Krankheiten manchmal zumindest grob wie ein Zufallsprozess wirken und so etwas wie ein Exponentielles als sinnvolle erste Annäherung an die Überlebenszeiten zurücklassen.)


Eine weitere Frage im Zusammenhang mit normal abgeschnitten: Wenn normal nicht angemessen ist, warum nicht normal im Quadrat (Chi-Quadrat mit df 1)?

In der Tat könnte das ein bisschen besser sein ... aber beachten Sie, dass dies einer unendlichen Gefahr bei 0 entspricht, so dass es nur gelegentlich nützlich wäre. Während es Fälle mit einem sehr hohen Anteil an sehr kurzen Überlebenszeiten modellieren kann, besteht das umgekehrte Problem darin, dass es nur Fälle modellieren kann, die in der Regel ein viel kürzeres als das durchschnittliche Überleben aufweisen (25% der Überlebenszeiten liegen unter 10,15% der mittleren Überlebenszeit und Die Hälfte der Überlebenszeiten liegt unter 45,5% des Mittelwerts, das heißt, das mittlere Überleben liegt unter der Hälfte des Mittelwerts.)

χ1212

Ähnliches Diagramm wie zuvor, aber auch mit einer Variatendichte, die das 100-fache eines Chi-Quadrats beträgt (1);  es hat eine hohe spitze bei 0 und einen sehr schweren schwanz - der mittelwert ist 100, aber der sd ist ungefähr 141 und der median ist ungefähr 45.

χ12χ2


danke, ich habe seit gestern auf deine Antwort gewartet :). Eine weitere Frage im Zusammenhang mit normal abgeschnitten: Wenn normal nicht angemessen ist, warum nicht normal im Quadrat (Chi-Quadrat mit df 1)?
Haitao Du

χ12

Nochmals vielen Dank für die Ausbildung meiner Intuition hinter den Dingen. Ich habe zu viele Tutorials auf Rezeptebene und Leute gesehen, die Dinge taten, ohne zu wissen warum. Lebenslauf ist ein großartiger Ort zum Lernen.
Haitao Du

1

Wenn wir wollen, dass die Zeit absolut positiv ist, warum nicht eine Normalverteilung mit höherem Mittelwert und sehr geringer Varianz erstellen (es gibt fast keine Chance, eine negative Zahl zu erhalten)?

weil

  1. das hat immer noch eine ungleich Null Wahrscheinlichkeit negativ zu sein, also ist es nicht streng positiv;

  2. Der Mittelwert und die Varianz können anhand der Population gemessen werden, die Sie modellieren möchten. Wenn Ihre Population einen Mittelwert von 2 und eine Varianz von 1 hat und Sie sie mit einer Normalverteilung modellieren, hat diese Normalverteilung eine erhebliche Masse unter Null. Wenn Sie es mit einer Normalverteilung mit Mittelwert 5 und Varianz 0,1 modellieren, hat Ihr Modell offensichtlich sehr andere Eigenschaften als das, was es modellieren soll.

Die Normalverteilung hat eine bestimmte Form und diese Form ist symmetrisch zum Mittelwert. Die einzige Möglichkeit, die Form anzupassen, besteht darin, sie nach rechts und links zu verschieben (den Mittelwert zu erhöhen oder zu verringern) oder sie mehr oder weniger zu verteilen (die Varianz zu erhöhen oder zu verringern). Dies bedeutet, dass die einzige Möglichkeit, eine Normalverteilung zu erhalten, bei der der größte Teil der Masse zwischen zwei und zehn liegt und nur ein winziger Teil der Masse unter null liegt, ein Mittelwert von beispielsweise sechs (der Mitte des Bereichs) erforderlich ist ) und stellen Sie die Varianz so klein ein, dass nur ein winziger Bruchteil der Proben negativ ist. Aber dann werden Sie wahrscheinlich feststellen, dass die meisten Ihrer Samples 5, 6 oder 7 sind, wohingegen Sie ziemlich viele 2s, 3s, 4s, 8s, 9s und 10s haben sollten.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.