Unterscheidung zwischen zufälligem Fehlen (MAR) und vollständigem Fehlen (MCAR)


13

Ich habe mir diese beiden mehrmals erklären lassen. Sie kochen weiter mein Gehirn. Nicht zufällig zu vermissen macht Sinn zu sein, und völlig zufällig zu vermissen macht Sinn ... es ist das Vermissen zufällig, das nicht so viel bedeutet.

Wodurch entstehen Daten, die MAR, aber nicht MCAR wären?


Wird Ihre Frage durch diese andere Frage beantwortet ? Gibt es einen guten Grund für den Namen "Missing at Random"? und die Ressourcen, die sie auflisten?
Andy W

3
@ AndyW Um stumpf zu sein, nein. Eine interessante Diskussion darüber, warum der Name fehlerhaft ist und ein Artikel, der sich hinter einer Abonnementwand verbirgt.
Fomite

Antworten:


18

Fehlen nach dem Zufallsprinzip (MAR) bedeutet, dass das Fehlen durch Variablen erklärt werden kann, zu denen Sie vollständige Informationen haben. Es ist keine überprüfbare Annahme, aber es gibt Fälle, in denen es vernünftig ist oder nicht.

Nehmen Sie zum Beispiel an politischen Meinungsumfragen teil. Viele Menschen weigern sich zu antworten. Wenn Sie davon ausgehen, dass die Gründe, aus denen Personen sich weigern, zu antworten, ausschließlich auf demografischen Merkmalen beruhen und Sie diese demografischen Merkmale für jede Person haben, lauten die Daten MAR. Es ist bekannt, dass einige der Gründe, warum Menschen sich weigern zu antworten, auf demografischen Faktoren beruhen können (z. B. antworten Menschen mit niedrigem und hohem Einkommen mit geringerer Wahrscheinlichkeit als solche mit mittlerem Einkommen), aber es gibt wirklich keinen Weg, um zu wissen, ob dies der Fall ist ist die vollständige Erklärung.

Die Frage lautet also "Ist es voll genug?". Oft funktionieren Methoden wie die Mehrfachimputation besser als andere Methoden, solange die Daten nicht sehr fehlen und nicht zufällig.


5
The Journal of Statistical Software (online) hatte eine aktuelle Ausgabe über mehrere Anrechnungs, und ich habe an den Big Three mehr Imputation Pakete für R suchen: Amelia, mi, und mice. Die Ähnlichkeiten und Unterschiede sind faszinierend. ( Amelia‚S over imputeist recht interessant.)
Wayne

1
Hier ist der Link zur JSS-Ausgabe: jstatsoft.org/v45
gung - Monica wiederherstellen

11

Ich bin nicht sicher, ob dies richtig ist, aber ich habe versucht, es so zu verstehen, als gäbe es eine 2x2-Matrix von Möglichkeiten, die nicht ganz symmetrisch ist. Etwas wie:

Pattern  /   Data Explains Pattern

            Yes         No

Yes         MAR        MNAR

No          --         MCAR

Das heißt, wenn es ein Muster für das Fehlen einer Variablen gibt und die Daten, die wir haben, es nicht erklären können, haben wir MNAR, aber wenn die Daten, die wir haben (dh andere Variablen in unserem Datensatz), können wir es erklären, haben wir MAR. Wenn es kein Muster für das Fehlen gibt, ist es MCAR.

Ich kann hier weg sein. Dies lässt auch die Definition von "Muster" und "Daten erklären" offen. Ich denke, dass "Daten erklären" bedeutet, dass andere Variablen in Ihrem Datensatz es erklären, aber ich glaube, dass Ihre Prozedur es auch erklären kann (z. B. ein gutes Beispiel in einem anderen Thread ist, wenn Sie drei Messvariablen haben, die dasselbe und dasselbe messen Verfahren ist, wenn die ersten beiden Messungen nicht übereinstimmen, indem Sie eine dritte Messung durchführen).

Ist das genau genug für die Intuition, Lebenslauf?


-1

Ich hatte auch Mühe, den Unterschied zu begreifen, also könnten vielleicht einige Beispiele helfen.

MCAR : Es fehlt völlig zufällig , das ist großartig. Dies bedeutet, dass die Nichtantwort völlig zufällig ist. Ihre Umfrage ist also nicht voreingenommen.

MAR : Es fehlt zufällig eine schlimmere Situation. Stellen Sie sich vor, Sie fragen nach dem IQ und haben viel mehr weibliche Teilnehmer als männliche. Glücklicherweise hängt der IQ nicht mit dem Geschlecht zusammen, sodass Sie das Geschlecht bestimmen können (Gewichtung anwenden), um die Voreingenommenheit zu verringern.

MNAR : Nicht zufällig vermisst , schlecht. Betrachten Sie eine Umfrage zur Höhe des Einkommens. Und wieder haben Sie mehr weibliche als männliche Teilnehmer. In diesem Fall ist dies ein Problem, da das Einkommensniveau geschlechtsspezifisch ist. Daher werden Ihre Ergebnisse voreingenommen sein. Nicht leicht loszuwerden.

Sie sehen, es ist ein "Dreieck" zwischen Zielvariable (Y, wie Einkommen), Hilfsvariable (X, wie Alter) und Antwortverhalten (R, die Antwortgruppe). Wenn X nur mit R in Beziehung steht, ist das gut (MAR). Wenn es eine Beziehung zwischen X und R und X und Y gibt, ist es schlecht (MNAR).

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.