我无法理解 ROC 曲线。
如果我从训练集的每个唯一子集构建不同的模型并使用它来产生概率,ROC 曲线下的面积是否有任何优势/改进?例如,如果的值为,我使用第 1-4 个值和的第 8-9并使用剩余的训练数据构建模型最后,生成概率。任何想法/意见将不胜感激。
这是 r 代码,可以更好地解释我的问题:
Y = factor(0,0,0,0,1,1,1,1)
X = matirx(rnorm(16,8,2))
ind = c(1,4,8,9)
ind2 = -ind
mod_A = rpart(Y[ind]~X[ind,])
mod_B = rpart(Y[-ind]~X[-ind,])
mod_full = rpart(Y~X)
pred = numeric(8)
pred_combine[ind] = predict(mod_A,type='prob')
pred_combine[-ind] = predict(mod_B,type='prob')
pred_full = predict(mod_full, type='prob')
所以我的问题是,pred_combine
vs的 ROC 曲线下的面积pred_full
。