我一直在使用重复的 k 折交叉验证并报告平均值(评估指标的,例如灵敏度、特异性),计算为交叉验证的不同运行的折叠的总平均值。
但是,我不确定我应该如何报告差异。我在这里发现了许多讨论重复交叉验证的问题,但是,我所知道的没有一个明确回答重复交叉验证测试中的方差问题。
我知道总方差是由于:1)模型不稳定和 2)样本量有限。
似乎有 4 种不同的方法可以计算重复 k 折交叉验证的方差:
1)在交叉验证的运行中估计的平均性能指标(例如,准确性)的方差是对方差的有效估计吗?
2)通过合并运行特定的方差(跨交叉验证测试运行的不同折叠计算)来合并方差。
3)连接来自在一个大向量中运行的交叉验证的不同折叠的分类结果。例如,如果每个折叠中的测试数据数量为 10,并且我有一个 10 折叠的 CV,则重复生成的向量大小为 100。现在,如果我重复交叉验证测试 10 次,我将有 10 个大小为 100 的向量,每个向量都包含 10 倍 CV 运行的分类结果。现在,我将计算平均值和方差作为单次运行 CV 的情况。
4)我还读到(方程式 2 和 3 中的1)方差是外部方差和预期内部方差的总和。如果我理解正确,外部方差是特定于重复的平均表现的方差,内部方差是交叉验证运行的不同折叠之间的方差。
我将非常感谢您的帮助和指导,说明哪些方差适合报告重复交叉验证测试。
谢谢,