Das Problem mit Korrelationen zu paarweise vollständigen Beobachtungen
In dem von Ihnen beschriebenen Fall ist das Hauptproblem die Interpretation. Da Sie paarweise vollständige Beobachtungen verwenden, analysieren Sie tatsächlich leicht unterschiedliche Datensätze für jede der Korrelationen, je nachdem, welche Beobachtungen fehlen.
Betrachten Sie das folgende Beispiel:
a <- c(NA,NA,NA, 5, 6, 3, 7, 8, 3)
b <- c(2, 8, 3, NA,NA,NA, 6, 9, 5)
c <- c(2, 9, 6, 3, 2, 3, NA,NA,NA)
Drei Variablen im Datensatz, a
, b
, und c
jeder hat einige fehlende Werte. Wenn Sie hier Korrelationen für Variablenpaare berechnen, können Sie nur Fälle verwenden, in denen für beide fraglichen Variablen keine Werte fehlen. In diesem Fall bedeutet dies, dass Sie nur die letzten drei Fälle auf die Korrelation zwischen a
und analysieren b
, nur die ersten drei Fälle auf die Korrelation zwischen b
und c
usw.
Die Tatsache, dass Sie bei der Berechnung jeder Korrelation völlig unterschiedliche Fälle analysieren, bedeutet, dass das resultierende Korrelationsmuster unsinnig aussehen kann. Sehen:
> cor(a,b, use = "pairwise.complete.obs")
[1] 0.8170572
> cor(b,c, use = "pairwise.complete.obs")
[1] 0.9005714
> cor(a,c, use = "pairwise.complete.obs")
[1] -0.7559289
Das sieht wie ein logischer Widerspruch --- a
und b
sind stark positiv korreliert, und b
und c
sind stark positiv korreliert auch, so würden Sie erwarten , a
und c
positiv als auch korreliert zu sein, aber es ist eigentlich eine starke Assoziation in die entgegengesetzte Richtung. Sie können sehen, warum viele Analysten das nicht mögen.
Bearbeiten, um nützliche Erläuterungen von whuber aufzunehmen:
Beachten Sie, dass ein Teil des Arguments davon abhängt, was "starke" Korrelation bedeuten könnte. Es ist durchaus möglich, dass a
und b
sowie b
und c
"stark positiv korreliert" werden, während zwischen a
und eine "starke Assoziation in die entgegengesetzte Richtung" besteht c
, aber nicht ganz so extrem wie in diesem Beispiel. Der Kern der Sache ist, dass die geschätzte Korrelations- (oder Kovarianz-) Matrix möglicherweise nicht positiv-eindeutig ist: So sollte man "stark" quantifizieren.
Das Problem mit der Art des Fehlens
Sie denken sich vielleicht: "Ist es nicht in Ordnung anzunehmen, dass die Teilmenge der Fälle, die ich für jede Korrelation zur Verfügung habe, mehr oder weniger dem gleichen Muster folgt, das ich erhalten würde, wenn ich vollständige Daten hätte?" Und ja, das stimmt - es ist nichts grundsätzlich Falsches daran, eine Korrelation für eine Teilmenge Ihrer Daten zu berechnen (obwohl Sie natürlich aufgrund der kleineren Stichprobengröße an Präzision und Leistung verlieren), solange die verfügbaren Daten zufällig sind Beispiel aller Daten, die dort gewesen wären, wenn Sie nicht gefehlt hätten.
Wenn das Fehlen rein zufällig ist , nennt man das MCAR (völlig zufällig fehlend). In diesem Fall wird die Analyse der Teilmenge der Daten, die nicht fehlen, Ihre Ergebnisse nicht systematisch beeinflussen, und es ist unwahrscheinlich (aber nicht unmöglich), das verrückte Korrelationsmuster zu erhalten, das ich im obigen Beispiel gezeigt habe.
Wenn Ihre Fehlzeiten in irgendeiner Weise systematisch sind (oft als MAR oder NI abgekürzt, wobei zwei verschiedene Arten systematischer Fehlzeiten beschrieben werden), haben Sie viel ernstere Probleme, sowohl hinsichtlich der möglichen Einführung von Verzerrungen in Ihre Berechnungen als auch hinsichtlich Ihrer Fähigkeit, Ihre zu verallgemeinern Ergebnisse für die interessierende Population (da die von Ihnen analysierte Stichprobe keine Zufallsstichprobe aus der Population ist, selbst wenn Ihr vollständiger Datensatz gewesen wäre).
Es gibt viele großen Ressourcen zur Verfügung , um zu erfahren fehlenden Daten und wie sie damit umgehen, aber meine Empfehlung ist Rubin:
ein Klassiker ,
und ein jüngerer Artikel