Wie Sie wissen, misst der Brier-Score die Kalibrierung und ist der mittlere quadratische Fehler zwischen den Vorhersagen und den Antworten . Da der Brier-Score ein Mittelwert ist, ist der Vergleich zweier Brier-Scores im Grunde ein Vergleich der Mittelwerte, und Sie können damit so ausgefallen sein, wie Sie möchten. Ich werde zwei Dinge vorschlagen und auf ein drittes hinweisen:B.¯=n- 1∑ (y^ich- -yich)2y^,y
Eine Option: Machen Sie einen T-Test
Meine unmittelbare Antwort, wenn ich Vergleiche von Mitteln höre, ist ein T-Test. Quadratische Fehler werden wahrscheinlich im Allgemeinen nicht verteilt, daher ist dies möglicherweise nicht der leistungsstärkste Test. In Ihrem extremen Beispiel scheint es in Ordnung zu sein. Im Folgenden teste ich die alternative Hypothese, die p1
eine größere MSE aufweist als p2
:
y <- rbinom(100,1,1:100/100)
p1 <- 1:100/10001
p2 <- 1:100/101
squares_1 <- (p1 - y)^2
squares_2 <- (p2 - y)^2
t.test(squares_1, squares_2, paired=T, alternative="greater")
#>
#> Paired t-test
#>
#> data: squares_1 and squares_2
#> t = 4.8826, df = 99, p-value = 2.01e-06
#> alternative hypothesis: true difference in means is greater than 0
#> 95 percent confidence interval:
#> 0.1769769 Inf
#> sample estimates:
#> mean of the differences
#> 0.2681719
Wir bekommen einen super niedrigen p-Wert. Ich habe einen gepaarten T-Test durchgeführt, da die beiden Vorhersagesätze Beobachtung für Beobachtung mit demselben Ergebnis verglichen werden.
Eine weitere Option: Permutationstests
Wenn Sie sich über die Verteilung der quadratischen Fehler Sorgen machen, möchten Sie möglicherweise keine Annahmen über einen T-Test treffen. Sie könnten beispielsweise dieselbe Hypothese mit einem Permutationstest testen:
library(plyr)
observed <- mean(squares_1) - mean(squares_2)
permutations <- raply(500000, {
swap <- sample(c(T, F), 100, replace=T)
one <- squares_1
one[swap] <- squares_2[swap]
two <- squares_2
two[swap] <- squares_1[swap]
mean(one) - mean(two)
})
hist(permutations, prob=T, nclass=60, xlim=c(-.4, .4))
abline(v=observed, col="red")
# p-value. I add 1 so that the p-value doesn't come out 0
(sum(permutations > observed) + 1)/(length(permutations) + 1)
#> [1] 1.999996e-06
Die beiden Tests scheinen eng übereinzustimmen.
Einige andere Antworten
Eine schnelle Suche auf dieser Website zum Vergleich von MSEs weist auf den Diebold-Mariano-Test hin (siehe Antwort hier und Kommentar hier ). Das sieht so aus, als wäre es einfach Walds Test und ich denke, er wird ähnlich wie der obige T-Test funktionieren.