平均与组合 k 折交叉验证和留一法

机器算法验证 精确召回 平均精度
2022-04-08 01:42:57

从 k 折交叉验证(或留一法)计算召回/精度可以通过平均从不同 k 折获得的召回/精度值或通过组合预测然后为每个召回和计算一个值来执行精确。

我的数据由属于两个类别的 1000 个样本组成。阳性只有 50 个,而阴性只有 950 个样本。如果我们使用平均 k 折交叉验证方法应用留一法。然后,我们会注意到我们没有定义 950 次折叠的精度和召回率(NaN),因为 NP/(TP+FP)全为零(因为在这个 k 折叠中只检查了一个负样本)。我认为,这样的 NaN 可能会被 1 代替,因为将其值设置为 0 没有意义(因为当前样本为负数,并且被正确预测为负数)。然后,我们平均 1000 倍的召回率/精度。这些值将不同于获得所有预测然后计算一个精度/召回率。

当我们对这些数据应用 k 折交叉验证而不是留一法(即使我们在每一折中产生平衡的阳性率)时,也会发生同样的差异。

所以,我的问题是:哪种方法更准确地计算 k 折交叉验证(组合或平均)的精度/召回率?留一法的情况是否相同?

有两个相关的讨论: 交叉验证中的平均值(分数)与分数(连接)使用交叉验证时的平均精度和召回率

然而,第一个对这一点没有明确的答案,第二个讨论了 Fmeasure 的平均效果(不在精度/召回中)。两次讨论都没有讨论留一法是否有其他偏好。

0个回答
没有发现任何回复~