我对统计学习 (SL) 教学法的一个批评是在评估不同建模技术时没有考虑计算性能。SL 强调自举和交叉验证来调整/测试模型,因此计算量非常大。再加上嵌入在 bagging 和 boosting 等技术中的重新采样,你就会对大型数据集的监督学习产生计算地狱的恐惧。事实上,R 的内存限制对模型的大小施加了相当严格的限制,这些模型可以通过随机森林等性能最佳的方法进行拟合。尽管 SL 在针对小型数据集校准模型性能方面做得很好,但了解大型数据的性能与计算成本肯定会很好。
R 的内存限制是什么,它们是否对模型的大小施加了严格的限制,这些模型可以通过随机森林等性能最佳的方法进行拟合?