Beschreibend würde ich anbieten, "eine Datenprobe wird zensiert, wenn einige Beobachtungen darin die Extremwerte der Probe annehmen oder darstellen, aber ihr wahrer Wert außerhalb des beobachteten Probenbereichs liegt". Dies ist jedoch täuschend einfach.
Lassen Sie uns zunächst diskutieren, wie wir zu dem Schluss kommen können, dass ein Datensatz zensiert wird, was uns natürlich dazu veranlasst, die in der Frage dargestellten Fälle zu diskutieren.
Angenommen, wir erhalten den folgenden Datensatz aus einer diskreten Zufallsvariablen , von der wir nur wissen, dass sie nicht negativ ist:X
{0,1,1,2,2,2,2,2,2,2}
Können wir sagen, dass der Datensatz zensiert ist? Nun, wir sind berechtigt zu glauben, dass dies der Fall sein könnte, aber das muss nicht so sein:
1) kann den Bereich { 0 , 1 habenX und eine Wahrscheinlichkeitsverteilung { 0,1 , 0,1 , 0,8 } haben . Wenn dies tatsächlich der Fall ist, scheint es hier keine Zensur zu geben, sondern nur eine "vorweggenommene" Stichprobe aus einer solchen Zufallsvariablen mit begrenzter Unterstützung und stark asymmetrischer Verteilung. {0,1,2}{0.1,0.1,0.8}
2) , aber es kann der Fall sein , dass den Bereich hat { 0 , 1 , . . . , 9 } mit einheitlicher Wahrscheinlichkeitsverteilung { 0,1 , 0,1 , . . .0 .1 } . In diesem Fall wird unser Datenmuster höchstwahrscheinlich zensiert. X{0,1,...,9}{0.1,0.1,...0.1}
Wie können wir es sagen? Wir können nicht, es sei denn, wir verfügen über Vorkenntnisse oder Informationen , die es uns erlauben, für den einen oder anderen Fall zu argumentieren. Stellen die drei in der Frage vorgestellten Fälle Vorkenntnisse zur Wirkung der Zensur dar? Mal sehen:
Fall A) beschreibt eine Situation, in der wir für einige Beobachtungen nur qualitative Informationen wie "sehr groß", "sehr klein" usw. haben, was uns dazu veranlasst, der Beobachtung einen Extremwert zuzuweisen. Es ist zu beachten, dass die bloße Nichtkenntnis des tatsächlich realisierten Werts nicht die Zuweisung eines Extremwerts rechtfertigt. Wir müssen also einige Informationen darüber haben, dass für diese Beobachtungen deren Wert alle beobachteten Werte über- oder unterschreitet. In diesem Fall ist der tatsächliche Bereich der Zufallsvariablen unbekannt, aber unsere qualitativen Informationen ermöglichen es uns , eine zensierte Stichprobe zu erstellen (es ist eine weitere Diskussion darüber, warum wir nicht einfach die Beobachtungen fallen lassen, für die wir nicht den tatsächlich realisierten Wert besitzen ).
Fall B) ist , wenn ich es richtig verstehe, keine Zensur, sondern ein Fall von kontaminierter Probe: Unsere A-priori-Information besagt, dass der Maximalwert der Zufallsvariablen nicht überschreiten darf (etwa aufgrund eines physikalischen Gesetzes oder a) Sozialgesetz - vorausgesetzt, es handelt sich um Noten aus einem Bewertungssystem, das nur die Werte 1 , 2 , 3 verwendet . Wir haben aber auch den Wert 4 und den Wert 5 beobachtet . Wie kann das sein? Fehler bei der Aufzeichnung der Daten. Aber in einem solchen Fall wissen wir nicht sicher, dass die 4 und 5 alle 3 sein sollten31,2,345453 's beobachtet (tatsächlich ist es bei Betrachtung der seitlichen Tastatur eines Computers wahrscheinlicher, dass die ' s 1 's und die 5 ' s 2 sind4152 ‚s!). Durch "Korrigieren" der Stichprobe auf irgendeine Weise machen wir sie nicht zu einer zensierten, da die Zufallsvariable in erster Linie nicht in dem aufgezeichneten Bereich liegen soll (den Werten und 5 sind also keine wahren Wahrscheinlichkeiten zugeordnet) ). 45
Fall C) bezieht sich auf eine gemeinsame Stichprobe, bei der wir eine abhängige Variable und Prädiktoren haben. Hier haben wir vielleicht eine Stichprobe, bei der sich die Werte der abhängigen Variablen aufgrund der Struktur des untersuchten Phänomens auf eines oder beide Extreme konzentrieren: In dem üblichen Beispiel "geleistete Arbeitsstunden" arbeiten Arbeitslose nicht, aber sie würden es tun gearbeitet (Überlegen Sie genau: Fällt dieser Fall wirklich unter die deskriptive "Definition" am Anfang dieser Antwort?). Wenn Sie sie also in die Regression mit den aufgezeichneten Stunden "Null" einbeziehen, entsteht eine Verzerrung. Im anderen Extremfall kann behauptet werden, dass die Höchstzahl der geleisteten Arbeitsstunden erreicht werden kann, z. B. 16/ Tag, und es kann Mitarbeiter geben, die bereit wären, so viele für eine bestimmte Bezahlung zu arbeiten. Die gesetzlichen Rahmenbedingungen lassen dies jedoch nicht zu, so dass wir solche "geleisteten Arbeitsstunden" nicht einhalten. Hier versuchen wir, die " beabsichtigte Arbeitskräfteangebotsfunktion" zu schätzen, und in Bezug auf diese Variable wird die Stichprobe als zensiert charakterisiert.
Wenn wir jedoch erklären würden, dass wir die "Funktion des Arbeitskräfteangebots angesichts des Phänomens der Arbeitslosigkeit und des rechtlichen Rahmens" abschätzen wollen, würde die Stichprobe nicht zensiert, da sie die Auswirkungen dieser beiden Aspekte widerspiegeln würde, die wir wollen es zu tun.
Wir sehen also, dass eine Datenprobe als zensiert charakterisiert wird
a) aus verschiedenen Situationen und kommt
b) erfordert eine gewisse Sorgfalt
-LET allein die Tatsache , dass es mit dem Fall verwechselt werden kann Abschneiden .