当我们在输出数据集中使用回归算法时,这是因为我们假设我们的输入数据和一些定量值之间存在关系。这表示为:
, 在哪里 是一个输入向量并且 是随机误差项。
在预测算法的情况下,这是等式:
在哪里代表我们的估计, 和表示结果预测.
我不明白的是:为什么这个设置,通常被视为一个黑匣子,从某种意义上说,人们通常不关心的确切形式,前提是它对 Y 产生准确的预测。
当我们在输出数据集中使用回归算法时,这是因为我们假设我们的输入数据和一些定量值之间存在关系。这表示为:
, 在哪里 是一个输入向量并且 是随机误差项。
在预测算法的情况下,这是等式:
在哪里代表我们的估计, 和表示结果预测.
我不明白的是:为什么这个设置,通常被视为一个黑匣子,从某种意义上说,人们通常不关心的确切形式,前提是它对 Y 产生准确的预测。
不知道我是否能得到你的“为什么”的方向,但这里是一个尝试:
如果你要使用某种插值,你就会有一个数学意义上的这个函数的显式模型。这将是一个白框,因为您实际上拥有进行预测的公式/算法。如果您使用传统的决策树或线性回归,您仍然属于相同的白盒类别,因为您的训练模型可以通过一组可管理的公式或规则来表示。
然而,在典型的机器学习场景中,至少有两个因素限制了这个盒子的透明度:
对您的问题的一些评论
我不明白的是:为什么这个设置,通常被视为一个黑匣子,从某种意义上说,人们通常不关心的确切形式,前提是它对 Y 产生准确的预测。
这有点不准确。的函数形式(或者) 是有趣的,并且像神经网络这样的算法可能会尝试近似(见通用逼近定理)。问题在于,许多统计/ML 算法可能无法以易于解释的方式显示近似值。
虽然神经网络可能会尝试逼近 ,它的架构很难(或几乎不可能)解释。因此,很多人将其视为“黑匣子”。因为兴趣的转移可能更多是在预测上,而不是在参数估计的推断上,所以只要预测的主要目标执行良好,用户可能有一个“黑匣子”这一事实并不重要。
此外,并非所有统计/ML 算法都必须像神经网络一样复杂。您可以拥有运行良好且易于解释的简单架构,例如广义线性模型(即线性回归/逻辑回归)。这些算法在某些问题上的表现与神经网络一样好。
因此,重点的差异实际上只是由于项目/研究目标,而不是统计和机器学习之间的差异。顺便说一句,两者之间几乎没有区别。早在“机器学习”一词流行之前,计算机科学/工程界就已经从统计界借鉴了许多想法。