Die Zensur wird häufig im Vergleich zur Kürzung beschrieben . Eine gute Beschreibung der beiden Prozesse liefern Gelman et al. (2005, S. 235):
Verkürzte Daten unterscheiden sich von zensierten Daten dadurch, dass keine Anzahl von Beobachtungen über den Kürzungspunkt hinaus verfügbar ist. Beim Zensieren gehen die
Werte von Beobachtungen über den Trunkierungspunkt hinaus verloren, aber ihre Anzahl wird eingehalten.
Zensierung oder Kürzung kann für Werte oberhalb einer bestimmten Ebene (Rechtszensierung), unterhalb einer bestimmten Ebene (Linkszensierung) oder für beides auftreten.
Unten finden Sie ein Beispiel für eine Standardnormalverteilung, die bei Punkt (Mitte) zensiert oder bei 2.0 (rechts) abgeschnitten ist . Wenn die Stichprobe abgeschnitten ist, liegen keine Daten über dem Abschneidepunkt. Zensierte Stichprobenwerte über dem Abschneidepunkt werden auf den Grenzwert "gerundet", sodass sie in Ihrer Stichprobe überrepräsentiert sind.2,02,0
Intuitives Beispiel für eine Zensur ist, dass Sie Ihre Befragten nach ihrem Alter fragen, es jedoch nur bis zu einem bestimmten Wert aufzeichnen. Alle Altersstufen über diesem Wert, beispielsweise 60 Jahre, werden mit "60+" bewertet. Dies führt dazu, dass genaue Informationen für nicht zensierte Werte und keine Informationen über zensierte Werte vorliegen.
Nicht so typischen, realen Beispiel von Zensur wurde beobachtet polnischen matura Prüfungsergebnisse , die ziemlich viel Aufmerksamkeit im Internet gefangen . Die Prüfung wird am Ende der High School abgelegt und muss von den Schülern bestanden werden, um sich für eine höhere Ausbildung bewerben zu können. Können Sie anhand der folgenden Darstellung erraten, wie viele Punkte die Schüler mindestens benötigen, um die Prüfung zu bestehen? Es überrascht nicht, dass die "Lücke" in der ansonsten normalen Verteilung leicht "ausgefüllt" werden kann, wenn Sie einen geeigneten Bruchteil der überrepräsentierten Punktzahlen direkt über der Zensurgrenze nehmen.
Im Falle einer Überlebensanalyse
Zensur tritt auf, wenn wir einige Informationen über die individuelle Überlebenszeit haben, aber die Überlebenszeit nicht genau kennen
(Kleinbaum und Klein, 2005, S. 5). Beispielsweise behandeln Sie Patienten mit einem Medikament und beobachten sie bis zum Ende Ihrer Studie. Sie wissen jedoch nicht, was mit ihnen nach Abschluss der Studie passiert (gab es Rückfälle oder Nebenwirkungen?). Sie wissen nur, dass sie überlebte " zumindest bis zum Ende der Studie.
Nachfolgend finden Sie ein Beispiel für Daten, die aus einer Weibull-Verteilung generiert wurden, die mit dem Kaplan-Meier-Schätzer modelliert wurde. Die blaue Kurve markiert das auf dem gesamten Datensatz geschätzte Modell. Im mittleren Diagramm sehen Sie die zensierte Stichprobe und das auf den zensierten Daten geschätzte Modell (rote Kurve). Rechts sehen Sie die abgeschnittene Stichprobe und das auf dieser Stichprobe geschätzte Modell (rote Kurve). Wie Sie sehen, haben fehlende Daten (Kürzung) einen erheblichen Einfluss auf die Schätzungen, aber die Zensur kann mithilfe von Standardüberlebensanalysemodellen problemlos verwaltet werden.
Dies bedeutet nicht, dass Sie keine verkürzten Stichproben analysieren können. In solchen Fällen müssen Sie jedoch Modelle für fehlende Daten verwenden, die versuchen, die unbekannten Informationen zu "erraten".
Kleinbaum, DG und Klein, M. (2005). Überlebensanalyse: Ein selbstlernender Text. Springer.
Gelman, A., Carlin, JB, Stern, HS und Rubin, DB (2005). Bayesianische Datenanalyse. Chapman & Hall / CRC.