Wojtek J. Krzanowski und David J. Hand ROC-Kurven für kontinuierliche Daten (2009) sind eine großartige Referenz für alle Dinge, die mit ROC-Kurven zu tun haben. Es sammelt eine Reihe von Ergebnissen in einer frustrierend breiten Literaturbasis, in der häufig unterschiedliche Begriffe verwendet werden, um dasselbe Thema zu diskutieren.
Darüber hinaus bietet dieses Buch Kommentare und Vergleiche zu alternativen Methoden, die zur Schätzung derselben Größen hergeleitet wurden, und weist darauf hin, dass einige Methoden Annahmen treffen, die in bestimmten Zusammenhängen möglicherweise unhaltbar sind. Dies ist ein solcher Kontext; Andere Antworten geben die Hanley & McNeil-Methode an, bei der das Binormalmodell für die Verteilung von Punktzahlen zugrunde gelegt wird. Dies kann in Fällen ungeeignet sein, in denen die Verteilung von Klassenpunktzahlen nicht (nahezu) normal ist. Die Annahme normalverteilter Punktzahlen scheint in modernen maschinellen Lernzusammenhängen besonders ungeeignet zu sein. Typische gängige Modelle wie xgboost tendieren dazu, Punktzahlen mit einer "Badewanne" -Verteilung für Klassifizierungsaufgaben zu erzeugen ( dh Verteilungen mit hohen Dichten in den Extremen nahe 0 und 1) ).
Frage 1 - AUC
In Abschnitt 6.3 werden Vergleiche der ROC-AUC für zwei ROC-Kurven erörtert (S. 113-114). Insbesondere ist mein Verständnis , dass diese beiden Modelle sind korreliert, so dass die Informationen darüber , wie zu berechnen von entscheidender Bedeutung ist hier; Andernfalls wird Ihre Teststatistik verzerrt, da der Korrelationsbeitrag nicht berücksichtigt wird.r
Für den Fall von nicht korrelierten ROC-Kurven, die nicht auf parametrischen Verteilungsannahmen basieren, können Statistiken für Tets und Konfidenzintervalle, die AUCs vergleichen, direkt auf Schätzungen und ^ AUC 2 der AUC-Werte und Schätzungen ihrer Standardabweichungen S 1 und S 2 basieren S 2 gemäß Nummer 3.5.1:AUCˆ1AUCˆ2S1S2
Z=AUCˆ1−AUCˆ2S21+S22−−−−−−−√
Um solche Tests auf den Fall auszudehnen, dass für beide Klassifikatoren dieselben Daten verwendet werden, müssen wir die Korrelation zwischen den AUC-Schätzungen berücksichtigen:
z=AUCˆ1−AUCˆ2S21+S22−rS1S2−−−−−−−−−−−−−√
wobei die Schätzung dieser Korrelation ist. Hanley und McNeil (1983) haben eine solche Erweiterung vorgenommen, wobei sie ihre Analyse auf den binormalen Fall gestützt haben. Sie haben jedoch nur eine Tabelle angegeben, aus der hervorgeht, wie der geschätzte Korrelationskoeffizient r aus der Korrelation r P der beiden Klassifikatoren innerhalb der Klasse P und der Korrelation von berechnet wird r n der beiden Klassifikatoren innerhalb der Klasse N, wobei angegeben wird, dass die mathematische Ableitung auf Anfrage verfügbar war. Verschiedene andere Autoren (z. B. Zou, 2001) haben Tests basierend auf dem binormalen Modell entwickelt, unter der Annahme, dass eine geeignete Transformation gefunden werden kann, die gleichzeitig die Punkteverteilungen der Klassen P und N in normal transformiert.rrrPrn
DeLong et al. (1988) nutzten die Identität zwischen AUC und der Mann-Whitney-Teststatistik zusammen mit Ergebnissen aus der Theorie der verallgemeinerten Statistik von Sen (1960), um einen Schätzwert für die Korrelation zwischen den AUCs abzuleiten verlässt sich nicht auf die binormale Annahme. DeLong et al. (1988) präsentierten die folgenden Ergebnisse für Vergleiche zwischen k ≥ 2 Klassifikatoren.Uk≥2
In Abschnitt 3.5.1 haben wir gezeigt, dass die Fläche unter der empirischen ROC-Kurve der Mann-Whitney- Statistik entspricht und von gegeben wurdeU
wobeisPi,i=1,...,nPdie Punktzahl für dieObjekteder KlassePundsNj,j=1,...,nNdie Punktzahl für sind die Klasse-N-Objekte in der Stichprobe. Angenommen, wir habenkKlassifikatoren, die die Punktes r N j ergeben ,
AUCˆ=1nNnP∑i=1nN∑j=1nP[I(sPj>sNi)+12I(sPj=sNi)]
sPi,i=1,…,nPPsNj,j=1,…,nNNk und s r P i , j = 1 , … , n P [Ich habe einen Indexierungsfehler in diesem Teil korrigiert - Sycorax] und ^ A U C r , r = 1 , … , k . DefinierensrNj,j=1…nNsrPi,j=1,…,nPAUCˆr,r=1,…,k
und
V r 01 =1
Vr10=1nN∑j=1nN[I(srPi>srNj)+12I(srPi=srNj)],i=1,…,nP
Vr01=1nP∑i=1nP[I(srPi>srNj)+12I(srPi=srNj)],j=1,…,nN
next, define the k×k matrix W10 with (r,s)th element
wr,s10=1nP−1∑i=1nP[Vr10(sPi)−AUCˆr][Vs10(sPi)−AUCˆs]
and the k×k matrix W01 with (r,s)th element
wr,s01=1nN−1∑i=1nN[Vr01(sNi)−AUCˆr][Vs01(sNi)−AUCˆs]
Then the estiamted covariance matrix for the vector (AUCˆ1,…,AUCˆk) of the estimated areas under the curves is
W=1nPW10+1nNW01
with elements wr,s. This is a generalization of the result for the estimated variance of a single estiamted AUC, also given in section 3.5.1. In the case of two classifiers, the estiamted correlation r between the estimated AUCs is thus given by w1,2w1,1w2,2√ which can be used in z above.
Since another answers gives the Hanley and McNeil expressions for estimators of AUC variance, here I'll reproduce the DeLong estimator from p. 68:
The alternative approach due to DeLong et al (1988) and exemplified by Pepe (2003) gives perhaps a simpler estimate, and one that introduces the extra useful concept of a placement value. The placement value of a score s with reference to a specified population is that population's survivor function at s. This the placement value for s in population N is 1−F(s) and for s in population P it is 1−G(s). Empirical estimates of placement values are given by the obvious proportions. Thus the placement value of observation sNi in population P denoted sPNi, is the proportion of sample values from P that exceed sNi, and var(sNPi) is the variance of the placement values of each observation from N with respect to population P...
The DeLong et al (1988) estimate of variance of AUCˆ is given in terms of these variances:
s2(AUCˆ)=1nPvar(sNPi)+1nNvar(sPNi)
Note that F is the cumulative distribution function of the scores in population N and G is the cumulative distribution function of the scores in population P. A standard way to estimate F and G is to use the ecdf. The book also provides some alternative methods to the ecdf estimates, such as kernel density estimation, but that is outside the scope of this answer.
The statistics Z and z may be assumed to be standard normal deviates, and statistical tests of the null hypothesis proceed in the usual way. (See also: hypothesis-testing)
This is a simplified, high-level outline of how hypothesis testing works:
Testing, in your words, "whether one classifier is significantly better than the other" can be rephrased as testing the null hypothesis that the two models have statistically equal AUCs against the alternative hypothesis that the statistics are unequal.
This is a two-tailed test.
We reject the null hypothesis if the test statistic is in the critical region of the reference distribution, which is a standard normal distribution in this case.
The size of the critical region depends on the level α of the test. For a significance level of 95%, the test statistic falls in the critical region if z>1.96 or z<−1.96. (These are the α/2 and 1−α/2 quantiles of the standard normal distribution.) Otherwise, you fail to reject the null hypothesis and the two models are statistically tied.
Question 1 - Sensitivity and Specificity
The general strategy for comparing sensitivity and specificity is to observe that both of these statistics amount to performing statistical inference on proportions, and this is a standard, well-studied problem. Specifically, sensitivity is the proportion of population P that has a score greater than some threshold t, and likewise for specificity wrt population N:
sensitivity=tp1−specificity=fp=P(sP>t)=P(sN>t)
The main sticking point is developing the appropriate test given that the two sample proportions will be correlated (as you've applied two models to the same test data). This is addressed on p. 111.
Turning to particular tests, several summary statistics reduce to proportions for each curve, so that standard methods for comparing proportions can be used. For example, the value of tp for fixed fp is a proportion, as is the misclassification rate for fixed threshold t. We can thus compare curves, using these measures, by means of standard tests to compare proportions. For example, in the unpaired case, we can use the test statistic (tp1−tp2)/s12, where tpi is the true positive rate for curve i as the point in question, and s212 is the sum of the variances of tp1 and tp2...
For the paired case, however, one can derive an adjustment that allows for the covariance between tp1 and tp2, but an alternative is to use McNemar's test for correlated proportions (Marascuilo and McSweeney, 1977).
The mcnemar-test is appropriate when you have N subjects, and each subject is tested twice, once for each of two dichotomous outcomes. Given the definitions of sensitivity and specificity, it should be obvious that this is exactly the test that we seek, since you've applied two models to the same test data and computed sensitivity and specificity at some threshold.
The McNemar test uses a different statistic, but a similar null and alternative hypothesis. For example, considering sensitivity, the null hypothesis is that the proportion tp1=tp2, and the alternative is tp1≠tp2. Re-arranging the proportions to instead be raw counts, we can write a contingency table
Model 2 Positive at tModel 2 Negative at tModel 1 Positive at tacModel 1 Negative at tbd
where cell
counts are given by counting the true positives and false negatives according to each model
abcd=∑i=1nPI(s1Pi>t)⋅I(s2Pi>t)=∑i=1nPI(s1Pi≤t)⋅I(s2Pi>t)=∑i=1nPI(s1Pi>t)⋅I(s2Pi≤t)=∑i=1nPI(s1Pi≤t)⋅I(s2Pi≤t)
and we have the test statistic
M=(b−c)2b+c
which is distributed as
χ21 a chi-squared distribution with 1 degree of freedom. With a level
α=95%, the null hypothesis is rejected for
M>3.841459.
For the specificity, you can use the same procedure, except that you replace the srPi with the srNj.
Question 2
It seems that it is sufficient to merge the results by averaging the prediction values for each respondent, so that for each model you have 1 vector of 100 averaged predicted values. Then compute the ROC AUC, sensitivty and specificity statistics as usual, as if the original models didn't exist. This reflects a modeling strategy that treats each of the 5 respondents' models as one of a "committee" of models, sort of like an ensemble.