Robustheit des Korrelationstests gegenüber Nichtnormalität

Ich versuche, zwei scheinbar gegensätzliche Aussagen über die Robustheit gegenüber der Nichtnormalität der Pearson-Korrelationsteststatistik in Einklang zu bringen (wobei Null "keine Korrelation" bedeutet).

Diese CV-Antwort lautet:

Sehr nicht robust.

Dieses Biostat-Handbuch sagt:

[...] zahlreiche Simulationsstudien haben gezeigt, dass lineare Regression und Korrelation nicht empfindlich auf Nichtnormalität reagieren; Eine oder beide Messvariablen können sehr nicht normal sein, und die Wahrscheinlichkeit eines falsch positiven (P <0,05, wenn die Nullhypothese wahr ist) beträgt immer noch etwa 0,05 ( Edgell und Noon 1984 und Referenzen darin).

Was vermisse ich?

— max
quelle

Die zwei verschiedenen Quellen, die Sie zitieren, scheinen dem Begriff „Abweichung von der Normalität“ unterschiedliche Bedeutungen zuzuweisen. Wird eine Stichprobe aus einer Normalverteilung erhalten, bei der jedoch eine einzelne Beobachtung durch einen beliebigen Wert ersetzt wird, der als akzeptable Form der Abweichung von der Normalität angesehen wird? Wenn ja, dann kann das Biostat-Handbuch (und das referenzierte Edgell- und Noon-Papier) leicht als falsch angezeigt werden.

— user603

@ user603 Regression erfordert in keiner Weise eine Normalverteilung einer oder beider Variablen: Die Annahme ist direkt in den mathematischen Formalismus integriert:

Y = β_{0} + β_{X} X + ε

$Y=\beta_{0}+\beta_{X}X+\varepsilon$ wo

ε \sim N (0, σ)

$\varepsilon \sim \mathcal{N}(0,\sigma)$ . Beachten Sie den letzten Teil: Es sind die Residuen, nicht die Variablen, die normal verteilt sind. Sie überprüfen empirisch: (1) simulieren

X

$X$ unter Verwendung einer gleichmäßigen Verteilung von, sagen wir 0 bis 100; (2) simulieren

Y = 3 + 0.5 \times X + N (0, 1)

$Y=3 + 0.5 \times X+\mathcal{N}(0,1)$ ;; (3) Rückschritt

Y

$Y$ auf

X

$X$ und erholen

β_{0} \approx 3

$\beta_{0}\approx 3$ ,

β_{X} \approx 0.5

$\beta_{X}\approx 0.5$ . Zeigen Sie nun die Histogramme von an

X

$X$ und

Y

$Y$ .

— Alexis

@Alexis: Ich bin nicht sicher, ob ich den Zusammenhang zwischen Ihrem und meinem Kommentar verstehe. Ich glaube nicht, dass ich etwas über Regression (oder Normalität) behauptet habe

— user603

@ user603 Ziemlich sicher, dass Sie eine Behauptung über das Edgell- und Noon-Zitat aufgestellt haben - insbesondere dieses Bit: "Zahlreiche Simulationsstudien haben gezeigt, dass lineare Regression und Korrelation nicht empfindlich auf Nichtnormalität reagieren; eine oder beide Messvariablen können sehr nicht normal sein." - worum es genau geht.

— Alexis

Das Edgell- und Noon-Papier hat es falsch verstanden.

Hintergrund

Das Papier beschreibt das Ergebnis von simulierten Datensätzen $(x_i,y_i)$ mit unabhängigen Koordinaten aus Normal-, Exponential-, Uniform- und Cauchy-Verteilungen. (Obwohl zwei "Formen" des Cauchy gemeldet werden, unterschieden sie sich nur darin, wie die Werte generiert wurden, was eine irrelevante Ablenkung darstellt.) Die Datensatzgrößen $n$ ("Stichprobengröße") reichte von $5$ zu $100$ . Für jeden Datensatz der Pearson-Probenkorrelationskoeffizient $r$ wurde berechnet, in a umgewandelt $t$ Statistik über

t = r \sqrt{\frac{n - 2}{1 - r^{2}}},

$t = r \sqrt{\frac{n-2}{1-r^2}},$

(siehe Gleichung (1)) und verwies dies an einen Schüler $t$ Verteilung mit $n-2$ Freiheitsgrade mit einer zweiseitigen Berechnung. Die Autoren führten $10,000$ unabhängige Simulationen für jede der $10$ Paare dieser Verteilung und jeder Probengröße produzieren $10,000$ $t$ Statistiken in jedem. Schließlich tabellierten sie den Anteil von $t$ Statistiken, die bei der $\alpha=0.05$ Ebene: das heißt, die $t$ Statistiken im äußeren $\alpha/2 = 0.025$ Schwänze des Schülers $t$ Verteilung.

Diskussion

Bevor wir fortfahren, beachten Sie, dass in dieser Studie nur untersucht wird, wie robust ein Test der Nullkorrelation gegenüber Nichtnormalität sein kann. Das ist kein Fehler, aber es ist eine wichtige Einschränkung, die Sie beachten sollten.

Diese Studie enthält einen wichtigen strategischen Fehler und einen offensichtlichen technischen Fehler.

Der strategische Fehler ist, dass diese Verteilungen nicht so ungewöhnlich sind. Weder die Normalverteilung noch die Gleichverteilung werden Probleme mit den Korrelationskoeffizienten verursachen: die erstere ist beabsichtigt und die letztere, weil sie keine Ausreißer erzeugen kann (was die Pearson-Korrelation nicht verursacht)robust sein). (Der Normalwert musste jedoch als Referenz angegeben werden, um sicherzustellen, dass alles ordnungsgemäß funktioniert.) Keine dieser vier Verteilungen ist ein gutes Modell für häufige Situationen, in denen die Daten möglicherweise durch Werte aus einer Verteilung mit einem anderen Speicherort "kontaminiert" werden Insgesamt (z. B. wenn die Probanden tatsächlich aus unterschiedlichen Populationen stammen, die dem Experimentator unbekannt sind). Der schwerste Test stammt aus dem Cauchy, untersucht jedoch nicht die wahrscheinlichste Empfindlichkeit des Korrelationskoeffizienten gegenüber einseitigen Ausreißern , da er symmetrisch ist .

Der technische Fehler besteht darin, dass die Studie die tatsächlichen Verteilungen der p-Werte nicht untersuchte: Sie untersuchte ausschließlich die zweiseitigen Raten für $\alpha=0.05$ .

(Obwohl wir vieles entschuldigen können, was vor 32 Jahren aufgrund von Einschränkungen in der Computertechnologie passiert ist, untersuchten die Leute routinemäßig kontaminierte Verteilungen, Schrägstrichverteilungen, logarithmische Normalverteilungen und andere schwerwiegendere Formen der Nichtnormalität; und dies war noch länger Routine Erforschen Sie einen größeren Bereich von Testgrößen, anstatt die Studien auf nur eine Größe zu beschränken.)

Korrigieren der Fehler

Im Folgenden stelle ich RCode zur Verfügung, der diese Studie vollständig reproduziert (in weniger als einer Minute Berechnung). Aber es macht noch etwas mehr: Es zeigt die Stichprobenverteilungen der p-Werte an. Das ist ziemlich aufschlussreich, also lasst uns einfach hineinspringen und uns diese Histogramme ansehen.

Hier sind zunächst Histogramme großer Stichproben aus den drei Verteilungen, die ich mir angesehen habe, damit Sie ein Gefühl dafür bekommen, wie sie nicht normal sind.

Das Exponential ist verzerrt (aber nicht schrecklich); Der Cauchy hat lange Schwänze (tatsächlich wurden einige tausende Werte von dieser Handlung ausgeschlossen, damit Sie seine Mitte sehen können). Das Kontaminierte ist ein Standardnormal mit einer 5% igen Mischung eines Standardnormalen, auf das verschoben wurde $10$ . Sie stellen Formen der Nichtnormalität dar, die häufig in Daten auftreten.

Da Edgell und Noon ihre Ergebnisse in Zeilen tabellierten, die Verteilungs- und Spaltenpaaren für Stichprobengrößen entsprachen, habe ich dasselbe getan. Wir müssen uns nicht die gesamte Bandbreite der verwendeten Stichprobengrößen ansehen: die kleinste ( $5$ ), größten ( $100$ ) und einen Zwischenwert ( $20$ ) wird gut tun. Aber anstatt die Schwanzfrequenzen zu tabellieren, habe ich die Verteilungen der p-Werte aufgezeichnet.

Idealerweise haben die p-Werte gleichmäßige Verteilungen: Die Balken sollten alle nahe an einer konstanten Höhe von liegen $1$ , in jedem Diagramm mit einer gestrichelten grauen Linie dargestellt. In diesen Darstellungen gibt es 40 Balken in einem konstanten Abstand von $0.025$ Eine Studie von $\alpha=0.05$ konzentriert sich auf die durchschnittliche Höhe des Balkens ganz links und ganz rechts (die "extremen Balken"). Edgell und Noon verglichen diese Durchschnittswerte mit der idealen Frequenz von $0.05$ .

Da die Abweichungen von der Einheitlichkeit deutlich sind, sind nicht viele Kommentare erforderlich, aber bevor ich einige zur Verfügung stelle, sollten Sie sich den Rest der Ergebnisse ansehen. Sie können die Stichprobengrößen in den Titeln identifizieren - sie werden alle ausgeführt $5-20-100$ über jede Zeile - und Sie können die Verteilungspaare in den Untertiteln unter jeder Grafik lesen.

Was Sie am meisten beeindrucken sollte, ist, wie unterschiedlich die extremen Balken vom Rest der Verteilung sind. Eine Studie von $\alpha=0.05$ ist außergewöhnlich speziell ! Es sagt uns nicht wirklich, wie gut der Test eine andere Größe durchführen wird; in der Tat sind die Ergebnisse für $0.05$ sind so besonders, dass sie uns hinsichtlich der Eigenschaften dieses Tests täuschen werden.

Zweitens ist zu beachten, dass die Verteilung der p-Werte asymmetrisch wird, wenn die kontaminierte Verteilung beteiligt ist - mit ihrer Tendenz, nur hohe Ausreißer zu erzeugen. Ein Balken (der zum Testen auf positive Korrelation verwendet werden würde) ist extrem hoch, während sein Gegenstück am anderen Ende (das zum Testen auf negative Korrelation verwendet werden würde) extrem niedrig ist. Im Durchschnitt gleichen sie sich jedoch fast aus: Zwei große Fehler brechen ab!

Es ist besonders alarmierend, dass sich die Probleme bei größeren Stichproben tendenziell verschlimmern .

Ich habe auch einige Bedenken hinsichtlich der Genauigkeit der Ergebnisse. Hier sind die Zusammenfassungen von $100,000$ Iterationen, zehnmal mehr als Edgell und Noon:

                                5      20     100
Exponential-Exponential   0.05398 0.05048 0.04742
Exponential-Cauchy        0.05864 0.05780 0.05331
Exponential-Contaminated  0.05462 0.05213 0.04758
Cauchy-Cauchy             0.07256 0.06876 0.04515
Cauchy-Contaminated       0.06207 0.06366 0.06045
Contaminated-Contaminated 0.05637 0.06010 0.05460

Drei davon - diejenigen, an denen die kontaminierte Verteilung nicht beteiligt ist - reproduzieren Teile des Papiertisches. Obwohl sie qualitativ zu den gleichen (schlechten) Schlussfolgerungen führen (nämlich, dass diese Frequenzen dem Ziel von ziemlich nahe kommen $0.05$ ) Sie unterscheiden sich genug, um entweder meinen Code oder die Ergebnisse des Papiers in Frage zu stellen. (Die Genauigkeit des Papiers beträgt ungefähr $\sqrt{\alpha(1-\alpha)/n} \approx 0.0022$ , aber einige dieser Ergebnisse unterscheiden sich um ein Vielfaches von denen des Papiers.)

Schlussfolgerungen

Indem Edgell und Noon keine Nicht-Normalverteilungen einbezogen, die wahrscheinlich Probleme mit Korrelationskoeffizienten verursachen, und die Simulationen nicht im Detail untersuchten, konnten sie keinen eindeutigen Mangel an Robustheit feststellen und verpassten die Gelegenheit, ihre Natur zu charakterisieren. Dass sie Robustheit für zweiseitige Tests an der fanden $\alpha=0.05$ Level scheint fast nur ein Unfall zu sein, eine Anomalie, die von Tests auf anderen Levels nicht geteilt wird.

R-Code

#
# Create one row (or cell) of the paper's table.
#
simulate <- function(F1, F2, sample.size, n.iter=1e4, alpha=0.05, ...) {
  p <- rep(NA, length(sample.size))
  i <- 0
  for (n in sample.size) {
    #
    # Create the data.
    #
    x <- array(cbind(matrix(F1(n*n.iter), nrow=n),
                     matrix(F2(n*n.iter), nrow=n)), dim=c(n, n.iter, 2))
    #
    # Compute the p-values.
    #
    r.hat <- apply(x, 2, cor)[2, ]
    t.stat <- r.hat * sqrt((n-2) / (1 - r.hat^2))
    p.values <- pt(t.stat, n-2)
    #
    # Plot the p-values.
    #
    hist(p.values, breaks=seq(0, 1, 1/40), freq=FALSE,
         xlab="p-values",
         main=paste("Sample size", n), ...)
    abline(h=1, lty=3, col="#a0a0a0")
    #
    # Store the frequency of p-values less than `alpha` (two-sided).
    #
    i <- i+1
    p[i] <- mean(1 - abs(1 - 2*p.values) <= alpha)
  }
  return(p)
}
#
# The paper's distributions.
#
distributions <- list(N=rnorm,
                      U=runif,
                      E=rexp,
                      C=function(n) rt(n, 1)
)
#
# A slightly better set of distributions.
#
# distributions <- list(Exponential=rexp,
#                       Cauchy=function(n) rt(n, 1),
#                       Contaminated=function(n) rnorm(n, rbinom(n, 1, 0.05)*10))
#
# Depict the distributions.
#
par(mfrow=c(1, length(distributions)))
for (s in names(distributions)) {
  x <- distributions[[s]](1e5)
  x <- x[abs(x) < 20]
  hist(x, breaks=seq(min(x), max(x), length.out=60),main=s, xlab="Value")
}
#
# Conduct the study.
#
set.seed(17)
sample.sizes <- c(5, 10, 15, 20, 30, 50, 100)
#sample.sizes <- c(5, 20, 100)

results <- matrix(numeric(0), nrow=0, ncol=length(sample.sizes))
colnames(results) <- sample.sizes
par(mfrow=c(2, length(sample.sizes)))
s <- names(distributions)
for (i1 in 1:length(distributions)) {
  s1 <- s[i1]
  F1 <- distributions[[s1]]
  for (i2 in i1:length(distributions)) {
    s2 <- s[i2]
    F2 <- distributions[[s2]]
    title <- paste(s1, s2, sep="-")
    p <- simulate(F1, F2, sample.sizes, sub=title)
    p <- matrix(p, nrow=1)
    rownames(p) <- title
    results <- rbind(results, p)
  }
}
#
# Display the table.
#
print(results)

Referenz

Stephen E. Edgell und Sheila M. Noon, Auswirkung der Verletzung der Normalität auf die $t$ Test des Korrelationskoeffizienten. Psychological Bulletin 1984, Bd. 95, Nr. 3, 576-583.

— whuber
quelle

Beeindruckend. Nicht nur die beiden Autoren des Papiers, sondern auch viele Menschen, die heute auf diesem Gebiet arbeiten (einschließlich des Autors des Blogs und des Handbuchs für Biostatistik, die ich erwähnt habe), haben ein wirklich unglückliches Missverständnis der Technik, die für ihre Forschung wirklich kritisch ist.

— Max

Solange die Forschung nur einen solchen Test in jedem veröffentlichten Artikel umfasst (so dass Korrekturen mit mehreren Vergleichen nicht erforderlich sind), besteht keine Chance auf schwerwiegende Ausreißer

α = 0.05

$\alpha=0.05$ Ist die Signifikanzschwelle, könnten Sie in Ordnung sein. Es gibt jedoch gute Gründe dafür, dass die meisten Lehrbücher über multiple Regression und Korrelation, die seit Anfang der 1980er Jahre verfasst wurden, wichtige Abschnitte zum Erkennen, Erkennen und Bewältigen von Nicht-Normalität enthalten. Tatsächlich sind in der Zwischenzeit ganze Teilbereiche der Statistik (robuste Schätzung und EDA), die entwickelt wurden, um mit dieser Situation umzugehen, gekommen und gegangen.

— whuber

+1 Dies ist eine großartige Antwort. Ein kleiner Trottel: Sie sagen, dass "eine Studie von α = 0,05 außerordentlich speziell ist!" macht den Eindruck, dass die Autoren einen anderen in Betracht gezogen hatten

α

$\alpha$ hätten sie radikal unterschiedliche Ergebnisse beobachtet (selbst nach der identischen Methodik). Aus Ihren Histogrammen geht jedoch nicht hervor, dass dies z

α = 0.01

$\alpha=0.01$ oder

0.001

$0.001$ oder andere gemeinsame Werte, weil die Auflösung nicht ausreicht. Wenn das Ergebnis für diese Alphas ungefähr gleich ist (tatsächliche Testgrößen von 0,4 bis 0,8), dann

α = 0.05

$\alpha=0.05$ ist vielleicht nicht "außergewöhnlich" besonders.

— Amöbe

@amoeba Du bist ganz richtig: das sind gute Beobachtungen. Ich glaube, Sie werden jedoch feststellen, dass die scharfen Trends, die bei dieser Auflösung in der Nähe der Schwänze auftreten, bei höheren Auflösungen noch stärker werden. Dies erfordert natürlich größere Simulationen - mindestens 20-mal größer. Das ist für jede interessierte Person machbar.

— whuber

Da whuber eine umfassende Analyse des Verhaltens der Verteilungen von p-Werten unter einer Null-Null-Korrelation gegeben hat, werde ich meine Kommentare an anderer Stelle konzentrieren.

Robustheit in Bezug auf Hypothesentests bedeutet nicht nur Level-Robustheit (Annäherung an das gewünschte Signifikanzniveau). Abgesehen davon, dass nur eine Ebene und nur zweiseitige Tests betrachtet werden, scheint die Studie die Auswirkungen auf die Leistung ignoriert zu haben . Es macht keinen Sinn zu sagen, dass Sie nahe an einer Ablehnungsrate von 5% unter der Null bleiben, wenn Sie auch eine Ablehnungsrate von 5% * für große Abweichungen von der Null erhalten.

* (oder vielleicht noch schlimmer, wenn der Test für einige Alternativen unter den nicht normalen Verteilungen voreingenommen ist)

Die Untersuchung der Macht ist wesentlich komplizierter. Zunächst müssten Sie bei diesen Verteilungen einige Copula oder Copulas spezifizieren, vermutlich mit einer nahezu linearen Beziehung in den nicht transformierten Variablen und sicherlich mit einem nahe an einem bestimmten Wert für den Populationskorrelationskoeffizienten. Sie müssen sich (mindestens) verschiedene Effektgrößen und möglicherweise sowohl die negative als auch die positive Abhängigkeit ansehen.

Wenn man jedoch die Eigenschaften der Inferenz mit dem Test in diesen Situationen verstehen will, kann man die möglichen Auswirkungen auf die Leistung nicht ignorieren.
Es erscheint seltsam, diesen speziellen Test der Pearson-Korrelation zu diskutieren, ohne alternative Tests zu untersuchen - zum Beispiel Permutationstests der Pearson-Korrelation, Rang-Tests wie Kendalls Tau und Spearmans Rho (die nicht nur eine gute Leistung haben, wenn die normalen Annahmen gelten, sondern die auch eine direkte Relevanz für das Problem mit Copulas haben, die für eine zuvor erwähnte Leistungsstudie benötigt werden), möglicherweise robuste Versionen des Korrelationskoeffizienten, möglicherweise auch Bootstrap-Tests.

— Glen_b -State Monica
quelle