标准差估计是通过以下方式计算的:
(http://en.wikipedia.org/wiki/Standard_deviation#Sample_standard_deviation)
对于从 10 倍交叉验证中采样的预测精度?我担心每次折叠之间计算的预测准确性是依赖的,因为训练集之间存在大量重叠(尽管预测集是独立的)。任何讨论这个问题的资源都会非常有帮助。
标准差估计是通过以下方式计算的:
(http://en.wikipedia.org/wiki/Standard_deviation#Sample_standard_deviation)
对于从 10 倍交叉验证中采样的预测精度?我担心每次折叠之间计算的预测准确性是依赖的,因为训练集之间存在大量重叠(尽管预测集是独立的)。任何讨论这个问题的资源都会非常有帮助。
我担心每次折叠之间计算的预测准确性是依赖的,因为训练集之间存在大量重叠(尽管预测集是独立的)。
恕我直言,训练集之间的重叠在这里不需要成为一个大问题。也就是说,检查模型是否稳定当然很重要。稳定意味着交叉验证代理模型的预测是等价的(即,一个独立的案例将通过所有这些模型得到相同的预测),事实上,交叉验证通常不仅声称代理模型之间的等价性,而且还声称与所有这些模型训练的模型等价。案例。所以这种依赖是我们想要拥有的结果。
这适用于典型问题:如果我在这些数据上训练模型,预测区间是多少?如果问题是,如果我们在在这个群体的案例中,预测区间是多少?我们无法回答这个问题,因为训练集中的重叠意味着我们低估了未知量的方差。
与使用独立测试集进行测试相比,结果是什么?
但是,如果模型是稳定的,则此方差很小/可以忽略不计。此外,可以测量这种类型的稳定性。
无法衡量的是整个数据集与从中提取的总体相比具有多大的代表性。这包括最终模型的部分偏差(但是,一个小的独立测试集也可能有偏差),这意味着无法通过交叉验证来估计相应的方差。
在应用实践中(在这些数据上训练的模型的性能),预测区间计算将面临恕我直言比方差交叉验证无法检测到的部分更重要的问题:例如
这些不仅仅是交叉验证与独立测试集的事情:基本上你需要坐下来设计一个验证研究,否则“独立”测试集不是那么独立的风险很高。一旦完成,人们就可以考虑哪些因素可能具有实际重要性,哪些因素可以忽略。您可能会得出这样的结论:经过充分考虑,交叉验证已经足够好并且是明智的做法,因为与可能的信息增益相比,独立验证的成本太高了。
所有东西放在一起,我会使用标准偏差的常用公式,称之为类比于并详细报告测试是如何完成的。