Ich habe Probleme, die ROC-Kurve zu verstehen.
Gibt es einen Vorteil / eine Verbesserung in der Fläche unter der ROC-Kurve, wenn ich aus jeder eindeutigen Teilmenge des Trainingssatzes verschiedene Modelle baue und sie zur Erstellung einer Wahrscheinlichkeit verwende? Wenn zum Beispiel Werte von { a , a , a , a , b , b , b , b } hat und ich Modell A unter Verwendung eines Wertes von 1 bis 4 von y und eines Wertes von 8 bis 9 von y und build aufbaue Modell B unter Verwendung der verbliebenen Zugdaten. Schließlich erzeugen Wahrscheinlichkeit. Alle Gedanken / Kommentare werden sehr geschätzt.
Hier ist der Code für eine bessere Erklärung meiner Frage:
Y = factor(0,0,0,0,1,1,1,1)
X = matirx(rnorm(16,8,2))
ind = c(1,4,8,9)
ind2 = -ind
mod_A = rpart(Y[ind]~X[ind,])
mod_B = rpart(Y[-ind]~X[-ind,])
mod_full = rpart(Y~X)
pred = numeric(8)
pred_combine[ind] = predict(mod_A,type='prob')
pred_combine[-ind] = predict(mod_B,type='prob')
pred_full = predict(mod_full, type='prob')
Also meine Frage ist, die Fläche unter ROC - Kurve von pred_combine
vs pred_full
.