我试图理解一篇关于随机森林和逻辑回归模型的敏感性与特异性之间权衡的好博客。我有几个问题:
ranger1)博客在包中使用了10折交叉验证R(见模型mod_rf),并将度量设置为ROC。那么,我们得到的最终输出(混淆矩阵)是否是 10 个验证集中具有最佳 ROC(AUC 值)的那个?
2)当我尝试查看变量重要性时varImp(mod_rf),它表示重要性值不可用。这是为什么?我怎么才能得到它?
3) 中的caret包R允许上采样以调整数据的不平衡。他们尝试使用逻辑回归(参见模型sim_glm)进行上采样,并指定repeats = 2重复 10 倍交叉验证 2 次。它是如何工作的?我不清楚。它是否会在交叉验证的每一折之前对女性进行上采样以创建 50-50 的男性和女性比例?在随机森林的情况下,该过程如何用于上采样repeats = 2和 10 倍交叉验证?
4)如果我的训练数据中的 AUC(来自 ROC 曲线)比来自测试数据的 AUC 小约 10 个百分点,我应该如何解释(这发生在我的数据上)?我认为训练数据总是显示出比测试数据更高的 AUC,因为我们使用训练数据来构建我们的模型。
我很欣赏你的回应。