我在学习机器学习方面遇到了理论障碍,因为我在任何地方都没有看到这个明确的解决方案。在我的研究中,似乎交叉验证(或其某种变体,如 LOOCV,或可能是另一种但类似的验证方案,如自举)是模型选择的全部。通过详尽的 CV 选择模型及其参数以最大化拟合并平衡过拟合似乎是创建模型的最佳方式,而计算能力只会越来越便宜。那么人类分析师还有什么可做的呢?
我提前为这个业余问题道歉,但谁能为我填补这个空白,并可能提出一些关于模型选择的资源?
我在学习机器学习方面遇到了理论障碍,因为我在任何地方都没有看到这个明确的解决方案。在我的研究中,似乎交叉验证(或其某种变体,如 LOOCV,或可能是另一种但类似的验证方案,如自举)是模型选择的全部。通过详尽的 CV 选择模型及其参数以最大化拟合并平衡过拟合似乎是创建模型的最佳方式,而计算能力只会越来越便宜。那么人类分析师还有什么可做的呢?
我提前为这个业余问题道歉,但谁能为我填补这个空白,并可能提出一些关于模型选择的资源?
有一种称为假设类的 VC 维度的东西。这是指可以由假设类中的模型正确分类的具有任意二进制标签的数据点的最大数量。
https://en.wikipedia.org/wiki/VC_dimension
如果您的数据点数量大于您选择的假设类的 VC 维度(例如一组 2d 超平面),那么无论您使用交叉验证对模型进行多少调整,您都无法达到完全的准确性。因此,分析师的重要工作是选择正确的假设类,同时确保它不会过拟合。在深度学习的情况下,这意味着提出一个特定的架构,这通常是最困难的任务之一。