机器学习中的预测

数据挖掘 回归 算法
2021-10-04 13:19:45

当我们在输出数据集中使用回归算法时,这是因为我们假设我们的输入数据和一些定量值之间存在关系。这表示为:

是的=F(X)+ε, 在哪里 X 是一个输入向量并且 ε随机误差项

预测算法的情况下,这是等式:

是的^=F^(X)在哪里F^代表我们的估计F, 和是的^表示结果预测是的.

我不明白的是:为什么这个设置,F^通常被视为一个黑匣子,从某种意义上说,人们通常不关心的确切形式F^,前提是它对 Y 产生准确的预测。

2个回答

不知道我是否能得到你的“为什么”的方向,但这里是一个尝试:

如果你要使用某种插值,你就会有一个数学意义上的这个函数的显式模型。这将是一个白框,因为您实际上拥有进行预测的公式/算法。如果您使用传统的决策树或线性回归,您仍然属于相同的白盒类别,因为您的训练模型可以通过一组可管理的公式或规则来表示。

然而,在典型的机器学习场景中,至少有两个因素限制了这个盒子的透明度:

  1. 我们更关心结果,而不是解释。因此,我们可能会使用不同的方法。只要它们适合您使用函数定义的相同“接口”,我们并不真正关心正在使用哪个。这允许对不同方法进行 A/B 测试,并实施目前产生最佳结果的方法。一段时间后,基于新的训练数据或机器学习的新进展,我们可以决定使用另一种算法,但一般设置保持不变。
  2. 当代算法非常复杂,既因为输入和输出的维度远高于我们的直觉可以应付的,又(本质上)因为它们使用了更多的迭代。这些迭代的例子可以是深度网络的层,也可以是随机森林等集成方法中使用的算法范围。

对您的问题的一些评论

我不明白的是:为什么这个设置,F^通常被视为一个黑匣子,从某种意义上说,人们通常不关心的确切形式F^,前提是它对 Y 产生准确的预测。

这有点不准确。的函数形式F(或者F^) 是有趣的,并且像神经网络这样的算法可能会尝试近似F(见通用逼近定理)。问题在于,许多统计/ML 算法可能无法以易于解释的方式显示近似值。

虽然神经网络可能会尝试逼近 F,它的架构很难(或几乎不可能)解释。因此,很多人将其视为“黑匣子”。因为兴趣的转移可能更多是在预测上,而不是在参数估计的推断上,所以只要预测的主要目标执行良好,用户可能有一个“黑匣子”这一事实并不重要。

此外,并非所有统计/ML 算法必须像神经网络一样复杂。您可以拥有运行良好且易于解释的简单架构,例如广义线性模型(即线性回归/逻辑回归)。这些算法在某些问题上的表现与神经网络一样好。

因此,重点的差异实际上只是由于项目/研究目标,而不是统计和机器学习之间的差异。顺便说一句,两者之间几乎没有区别。早在“机器学习”一词流行之前,计算机科学/工程界就已经从统计界借鉴了许多想法。