我想了解您对交叉验证和引导估计预测误差之间差异的看法。
对于小数据集大小或大数据集,一种方法是否更有效?
我想了解您对交叉验证和引导估计预测误差之间差异的看法。
对于小数据集大小或大数据集,一种方法是否更有效?
它归结为方差和偏差(像往常一样)。CV 往往偏差较小,但 K-fold CV 具有相当大的方差。另一方面,自举往往会大大降低方差,但会产生更多有偏差的结果(它们往往是悲观的)。其他自举方法已被调整以处理自举偏差(例如 632 和 632+ 规则)。
另外两种方法是“Monte Carlo CV”,又名“leave-group-out CV”,它对数据进行许多随机拆分(有点像小型训练和测试拆分)。这种方法的方差非常低,如果保留中的数据百分比很低,则偏差也不会太差。此外,重复的 CV 会进行多次 K-fold,并平均结果类似于常规 K-fold。我最喜欢这个,因为它保持低偏差并减少方差。
对于大样本量,方差问题变得不那么重要,而计算部分更是一个问题。对于小样本和大样本,我仍然会坚持重复 CV。
下面是一些相关的研究(尤其是 Kim 和 Molinaro)。
Bengio, Y. 和 Grandvalet, Y. (2005)。估计 k 折交叉验证方差的偏差。复杂数据问题的统计建模和分析,75-95。
布拉加内托,UM(2004 年)。交叉验证是否适用于小样本微阵列分类 Bioinformatics, 20(3), 374–380。doi:10.1093/生物信息学/btg419
埃夫隆,B.(1983 年)。估计预测规则的错误率:交叉验证的改进。美国统计协会杂志,316-331。
Efron, B. 和 Tibshirani, R. (1997)。交叉验证的改进:The。632+ 引导方法。美国统计协会杂志,548-560。
Furlanello, C., Merler, S., Chemini, C., & Rizzoli, A. (1997)。引导 632+ 规则在生态数据中的应用。97.
江 W. 和 Simon, R. (2007)。用于估计微阵列分类中的预测误差的自举方法和调整后的自举方法的比较。医学统计,26(29),5320–5334。
Jonathan, P.、Krzanowski, W. 和 McCarthy, W. (2000)。关于使用交叉验证来评估多变量预测中的性能。统计与计算,10(3),209–229。
金,J.-H。(2009 年)。估计分类错误率:重复交叉验证、重复保持和引导。计算统计和数据分析,53(11),3735–3745。doi:10.1016/j.csda.2009.04.009
Kohavi, R. (1995)。用于准确性估计和模型选择的交叉验证和引导程序研究。国际人工智能联合会议,14, 1137–1145。
Martin, J. 和 Hirschberg, D. (1996)。分类错误率的小样本统计 I:错误率测量。
莫利纳罗,上午(2005 年)。预测误差估计:重采样方法的比较。生物信息学,21(15),3301-3307。doi:10.1093/生物信息学/bti499
Sauerbrei, W. 和 Schumacher1, M. (2000)。用于评估数据驱动回归模型复杂性的引导和交叉验证。医学数据分析,26-28。
Tibshirani, RJ 和 Tibshirani, R. (2009)。交叉验证中最小错误率的偏差校正。Arxiv 预印本 arXiv:0908.2904。
@Frank Harrell 在这个问题上做了很多工作。我不知道具体的参考资料。
但我宁愿将这两种技术视为用于不同目的。在决定模型时,交叉验证是一个很好的工具——它可以帮助你避免自欺欺人地认为你有一个好的模型,而实际上你已经过拟合了。
当您的模型固定后,使用引导程序更有意义(至少对我而言)。
在http://www.burns-stat.com/pages/Tutor/bootstrap_resampling.html上使用 R 介绍了这些概念(加上排列测试)
我的理解是,自举是一种量化模型中不确定性的方法,而交叉验证用于模型选择和测量预测准确性。
这是两种重采样技术:
在交叉验证中,我们将数据随机分成 kfold,它有助于过度拟合,但这种方法有其缺点。由于它使用随机样本,因此某些样本会产生重大错误。为了最小化 CV 有一些技术,但它在分类问题上并不那么强大。Bootstrap 在这方面有所帮助,它通过自己的样本检查改进了错误..有关详细信息,请参阅..
https://lagunita.stanford.edu/c4x/HumanitiesScience/StatLearning/asset/cv_boot.pdf