这个答案将集中在模型误差的概念和增加模型要拟合的点集上。首先,也是最重要的,请理解 OP 正在努力解决的一般问题不是新问题,也不是仅限于机器学习,而是相反,机器学习是一组正在应用的技术和方法关于模型创建和性能测量的更大问题。
所有型号都有错误
为此,我介绍了对这个领域感兴趣的人应该学习和生活的最重要的引语之一。恕我直言, Box 教授(箱形图的创造者!)对这一概念的最简单形式是
本质上,所有模型都是错误的,但有些是有用的
这基本上适用于所有模型。它们都是我们在现实世界数据中遇到的必要简化。所有模型都是根据实验数据的观察和汇编构建的,我们可以将其标记为训练数据,并且一旦针对其他数据点进行测试,所有模型都会失败,尤其是那些超出训练数据中包含的观察集的数据点。这并不一定会使它们无用。
Box 的原始引述更详细地说明了这一点:
现在,如果现实世界中存在的任何系统都可以用任何简单的模型精确表示,那将是非常了不起的。然而,巧妙选择的简约模型通常确实提供了非常有用的近似值。例如,通过常数 R 将“理想”气体的压力 P、体积 V 和温度 T 联系起来的定律 PV = RT 对于任何实际气体并不完全正确,但它经常提供有用的近似值,而且它的结构提供了丰富的信息,因为它源于对气体分子行为的物理观点。
对于这样的模型,不需要问“模型是真的吗?”。如果“真相”要成为“全部真相”,那么答案必须是“否”。唯一感兴趣的问题是“模型是否具有启发性和有用性?”。
这提醒我们,理想气体方程是一种理论派生模型,实际上,它无法准确预测 100% 观察到的真实数据点。理解和预测所建模的力如何表现和相互作用也非常有用。
对于最简单的线性回归模型,请查看双变量回归。对于两个观察到的变量X
和Y
,您创建一个回归方程来模拟 X 和 Y 之间的关系。但是,该模型实际上并不代表Y,而是一个新变量,我们称之为Y'
。然后我们得到类似的东西:
Y` = a + bX
其中系数a
和被选择以最小化和b
之间的差异。如果我们将变量绘制为向量空间中的向量,我们将有两个向量,并且希望它们彼此非常接近。但是有一个向量称为错误,这样:Y'
Y
Y
Y'
e
e = Y - Y`
线性回归的整个算法以优化a
和b
最小化为中心e
。
从人口中抽样
因此,所有模型都有一些我们努力最小化的误差项。对于一组特定的给定点,我们可能能够对其进行优化,从而使误差甚至为零。但是对于我们只能观察到的任何现实世界中的点集,因此只能对观察群体的样本进行建模,下一次观察可能会导致误差项增加!即使不是通过机器学习得出的模型也是如此
有很多很多有用的模型可以分解为部分纪念活动,但我们仍然发现它们很有用。看看牛顿万有引力,它在现实世界的某些点上发生了故障,但大部分都是正确的,我们经常用它来预测和理解,部分原因是它比处理的更复杂的东西更容易理解和操作对于其他情况,例如GR,它本身也无法处理一些复杂的现象,例如量子引力。
过/过拟合
除了最小化误差之外e
,模型和性能还有两个问题,过拟合和欠拟合。
在过拟合中,统计模型描述的是随机误差或噪声,而不是潜在的关系。当模型过于复杂时会发生过拟合,例如相对于观察次数而言参数过多。过度拟合的模型的预测性能很差,因为它对训练数据的微小波动反应过度。
当统计模型或机器学习算法无法捕捉数据的潜在趋势时,就会出现欠拟合。例如,当将线性模型拟合到非线性数据时,就会发生欠拟合。这样的模型的预测性能很差。
概括
所以,最后,前提:
没有机器学习算法是完美的。如果是,则意味着它过度拟合,因此它并不是真正完美的,因为它在现实世界的场景中表现不佳。
错过了这一点
本质上,所有模型都是错误的,但有些模型是有用的。