Rechte Zensur und linke Zensur


10

Wikipedia gibt folgende Definitionen:

Richtige Zensur : Ein Datenpunkt liegt über einem bestimmten Wert, aber es ist nicht bekannt, um wie viel.
Linke Zensur : Ein Datenpunkt liegt unter einem bestimmten Wert, aber es ist nicht bekannt, um wie viel.

Was ist in diesen Definitionen gemeint mit:

  • "Datenpunkt"
  • "bestimmter Wert" und
  • "wie viel"

Was ist im Allgemeinen die rechte und linke Zensur?

Ist die folgende Aussage wahr:

"Bei der rechten Zensur haben wir nur die Untergrenze für den zensierten Wert."

Was wäre die analoge Aussage für die Linkszensur?


Überprüfen Sie auch stats.stackexchange.com/questions/197628/… , um mehr über das Zensieren zu erfahren.
Tim

Antworten:


14

Da das Survival-Tag verwendet wird, füge ich eine Antwort hinzu, die einige Beispiele mit einer Überlebensanalyse enthält.

Datenpunkt

Mit einem Datenpunkt meinen wir nur eine Beobachtung, dh das Ergebnis einer oder mehrerer Variablen. Zum Beispiel könnten wir in einem Datensatz Folgendes haben: Person 1 in unserer Studie ist ein Mann und stirbt im Alter von 58 Jahren. Wir könnten dies als Datenpunkt betrachten. In Ihrem Beispiel ist jedoch klar, dass der Datenpunkt nur aus dem Ergebnis einer Variablen besteht, z. B. 58.

Rechtszensur

Wenn wir die Zeit bis zum Scheitern modellieren, gibt es einen offensichtlichen Grund für die Zensur, nämlich dass wir nicht unbedingt Zeit haben, auf das Scheitern aller Themen zu warten. Angenommen, wir testen die Wirkung von Kinderimpfstoffen. Wenn wir eine randomisierte Studie durchführen würden, würde das letzte unserer Probanden in hundert Jahren oder länger sterben. Dies führt natürlich zu einer Zensur, in diesem Fall zu einer Rechtszensur, da wir irgendwann sagen müssten: "Wir wissen nicht, wie lange diese Person noch leben wird, wir wissen nur, dass sie noch lebt." Eine Rechtszensur kann auch auftreten, wenn Personen in der randomisierten Studie für die Nachsorge verloren gehen, z. B. wenn sie ihre Teilnahme an der Studie abbrechen oder wegziehen möchten. Dies sind Beispiele für Rechtszensur. Wir sind an der Langlebigkeit unserer Probanden interessiert, aber aufgrund praktischer Umstände haben wir nur zensierte Beobachtungen, was bedeutet, dass wir für einige Probanden nie wissen werden, wann sie sterben, nur dass sie zu einem bestimmten Zeitpunkt (der Zensurzeit) noch am Leben waren. Wir wissen also, dass für eine zensierte Person der Datenpunkt (Zeitpunkt des Todes) größer als ein bestimmter Wert (die Zensurzeit) ist.

Linkszensur

xx

Dieses Beispiel stammt aus

Andersen, PK, Borgan, Ø., Gill, RD und Keiding, N. (1993), Statistische Modelle basierend auf Zählprozessen , Springer-Reihe in Statistik, Springer-Verlag, New York.

Dieses Buch bietet eine mathematische Definition der Zensur und ist wahrscheinlich nicht das erste Buch über Überlebensanalysen, das man bekommen sollte. Es gibt jedoch auch einige intuitive Beispiele, wie oben.


Aber sagen wir, ein Pavian ist noch nicht abgestiegen, als wir am Ort ankommen (9 Uhr morgens, bestimmter Wert). Also begannen wir zu beobachten, wann es absteigen wird. Haben wir dann nicht den Datenpunkt (Abstiegszeitpunkt) über einem bestimmten Wert (9 Uhr morgens)? Trotzdem handelt es sich um linkszensierte Daten. Hat Wikipedia die Definition allgemeiner gegeben?
ABC

1
Ich nahm an, dass die gesamte Truppe auf einmal zusammen absteigen würde. Aber es macht keinen großen Unterschied. Wenn wir nach dem Abstieg ankommen, kennen wir nur eine Obergrenze für den Zeitpunkt des Abstiegs (nämlich unsere Ankunftszeit), daher wird dieser Datenpunkt (Zeitpunkt des Abstiegs an einem bestimmten Tag) linkszensiert. Wenn wir vor dem Abstieg ankommen, wird dieser Datenpunkt nicht zensiert (es sei denn, wir haben es satt zu warten und gehen vor dem Abstieg ab. In diesem Fall haben wir rechtszensierte Daten, vorausgesetzt, sie steigen jeden Tag ab).
Swmo

Ein weiteres Beispiel für richtig zensierte Daten sind Zeitintervalldaten, bei denen wir nicht wissen, dass sie beginnen. Dies wird häufig als rechtszensierte Daten missverstanden (es gibt mehrere Beispiele in Foren und Mailinglisten mit diesem Missverständnis).
Drevicko

4

Angenommen, ich besitze eine Bar, in der Bands spielen. Die Bar ist ziemlich klein, so dass nur 150 Personen gleichzeitig eine Show sehen können (dies ist der Schlüssel). Ich verkaufe Tickets für die Shows, daher würden meine Buchhaltungsdaten folgendermaßen aussehen:

date     band               price   tickets_sold
10/01/14 Texas Instruments  $20     2
10/02/14 Unkind Donuts      $30     150
...
03/02/15 The Capybaras      $15     120

Ein Datenpunkt ist nur eine Zeile in dieser Tabelle.

Angenommen, die Variable, die ich berücksichtigen möchte, ist die Nachfrage nach Tickets. Die Nachfrage nach der ersten Show wird nicht zensiert. Nur zwei Leute wollten Texas Instruments für 20 Dollar sehen und 148 Tickets wurden nicht verkauft. Ich kenne die Nachfrage bei 20 Dollar genau: die 2 Tickets, die verkauft wurden.

Die Nachfragevariable wurde jedoch in der zweiten Reihe zensiert, da die Show ausverkauft war. Ich weiß, dass mindestens 150 Leute Unkind Donuts für 30 US-Dollar pro Ticket sehen wollten , aber wie viele Leute ohne Ticket abgewiesen wurden, ist mir unbekannt, daher kenne ich die Nachfrage nicht genau. Ich weiß nur die Untergrenze von 150.

Angenommen, ich wollte stattdessen die Teilnahme an der dritten Show messen. Wir könnten Leute an der Tür zählen, aber für dieses Beispiel nehmen wir an, dass mein Türsteher schlecht rechnet. Wir wissen, dass einige Leute Tickets kaufen und dann nicht kommen. Dies bedeutet, dass die Besucherzahl höchstens 120 beträgt, da so viele Tickets verkauft wurden. Dies ist die Obergrenze für die Anwesenheit von The Capybaras, die linkszensiert ist.


1

Ein häufiges Missverständnis bei der linken Zensur ist die Klassifizierung eines Zeitintervalldatenpunkts, an dem Sie nicht wissen, dass er beginnt. Viele denken, dass dies links zensiert ist, aber es ist tatsächlich rechts zensiert, da wir eine Untergrenze für die Länge des Intervalls haben.

Ein konkretes Beispiel könnten klinische Daten zur Dauer von "Pocken" sein, normalerweise eine nicht-terminale Krankheit, und wir sind daran interessiert, wie lange es dauert, bis sich Menschen erholen. Die Symptome von Pocken sind leicht zu beobachten (zB: Ihre Zähne werden grün). Die meisten Menschen in unserer Studie wissen genau, wann das begann und wann es endete.

Das klassische Beispiel für richtig zensierte Daten in dieser Art von Studie sind Probanden, die entweder am Ende der Studie noch Foo-Pocken hatten oder noch Foo-Pocken hatten, als sie während der Studie verschwanden ("für die Nachsorge verloren") (nehmen wir an, wir) kennen den Beginn der Krankheit für diese Menschen). Für diese Personen haben wir eine Untergrenze für die Dauer, daher sind ihre Daten richtig zensiert . Dies ist intuitiv "richtig zensiert", da wir das rechte Ende des Zeitraums nicht kennen.

Das Problem ist, wenn wir das Startdatum des Zeitraums nicht kennen (Menschen, die alleine leben und keinen Spiegel haben, wissen also nicht, wann ihre Zähne grün wurden). Sind diese links oder rechts zensiert? Viele denken fälschlicherweise, dass das linke Ende des Zeitraums unbekannt ist, weshalb sie zensiert bleiben. Dies ist ein unglückliches Ergebnis der Terminologie, die ich ohne diese Art der Zensur entwickelt habe. Für diese Menschen haben wir eine Untergrenze für den Zeitraum (wir wissen, dass sie zumindest von dem Zeitpunkt an, als ihr Nachbar ihre grünen Zähne erwähnte, bis sie besser wurden oder die Studie endete und sie immer noch krank waren, Pocken hatten), daher sind ihre Daten richtig zensiert .


2
Ich finde deine Antwort etwas verwirrend. Am Anfang sprechen Sie über das Zensieren eines Zeitintervalls, später über das Zensieren eines Zeitraums (einer einzelnen Zahl). Im letzten Absatz können Sie ebenso gut angeben, dass die Daten Intervalle vom Zeitpunkt des Ausbruchs der Pocken bis zum Tod sind. In diesem Fall hätten Sie in Ihrem Beispiel linkszensierte Intervalle, da Sie nicht unbedingt den genauen Zeitpunkt des Beginns kennen, sondern nur eine Obergrenze. Ebenso gut könnten Sie (wie Sie) die Dauer der Pocken betrachten. In diesem Fall könnten Sie eine Untergrenze für die Dauer erhalten und somit eine Rechtszensur durchführen.
Swmo

Wie würden Sie dies dann in den Daten codieren, beispielsweise in einem R Surv-Objekt? Wäre das Ereignis eines links rechts zensierten Datensatzes "Remission" oder "Ereignisvorkommen", während das Ereignis eines rechts rechts zensierten Datensatzes "rechts zensiert / kein Vorkommen / keine Remission" wäre? Es scheint auch, dass die Gefährdungsraten zwischen den beiden Arten von rechtsabgeschnittenen Ereignissen unterschiedlich sein müssen, da diese als Funktion ab dem Ausbruch der Krankheit modelliert werden sollten. Welche Art von Modell würde damit umgehen?
Allen Wang

@AllenWang Ich fürchte, ich bin mit R Surv-Objekten nicht allzu vertraut, aber ich gehe davon aus, dass ihre Terminologie konsistent ist. Wenn Sie sie also sorgfältig verstehen und befolgen, sollte es Ihnen gut gehen. Bei den Gefährdungsraten gibt es keinen Unterschied. In beiden Fällen haben Sie nur eine Untergrenze für die Ereignisdauer.
Drevicko
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.