数据挖掘 - 机器学习中的预测 - 吾爱随笔录 - 问答

机器学习中的预测

数据挖掘回归算法

2021-10-04 13:19:45

当我们在输出数据集中使用回归算法时，这是因为我们假设我们的输入数据和一些定量值之间存在关系。这表示为：

$y = f(x)+\varepsilon$ ，在哪里 $x$ 是一个输入向量并且 $\varepsilon$ 是随机误差项。

在预测算法的情况下，这是等式：

$\hat{y}=\hat{f}(x)$ 在哪里 $\hat{f}$ 代表我们的估计 $f$ ，和 $\hat{y}$ 表示结果预测 $y$ .

我不明白的是：为什么这个设置， $\hat{f}$ 通常被视为一个黑匣子，从某种意义上说，人们通常不关心的确切形式 $\hat{f}$ ，前提是它对 Y 产生准确的预测。

2个回答

不知道我是否能得到你的“为什么”的方向，但这里是一个尝试：

如果你要使用某种插值，你就会有一个数学意义上的这个函数的显式模型。这将是一个白框，因为您实际上拥有进行预测的公式/算法。如果您使用传统的决策树或线性回归，您仍然属于相同的白盒类别，因为您的训练模型可以通过一组可管理的公式或规则来表示。

然而，在典型的机器学习场景中，至少有两个因素限制了这个盒子的透明度：

我们更关心结果，而不是解释。因此，我们可能会使用不同的方法。只要它们适合您使用函数定义的相同“接口”，我们并不真正关心正在使用哪个。这允许对不同方法进行 A/B 测试，并实施目前产生最佳结果的方法。一段时间后，基于新的训练数据或机器学习的新进展，我们可以决定使用另一种算法，但一般设置保持不变。
当代算法非常复杂，既因为输入和输出的维度远高于我们的直觉可以应付的，又（本质上）因为它们使用了更多的迭代。这些迭代的例子可以是深度网络的层，也可以是随机森林等集成方法中使用的算法范围。

对您的问题的一些评论

我不明白的是：为什么这个设置， $\hat{f}$ 通常被视为一个黑匣子，从某种意义上说，人们通常不关心的确切形式 $\hat{f}$ ，前提是它对 Y 产生准确的预测。

这有点不准确。的函数形式 $f$ （或者 $\hat{f}$ ) 是有趣的，并且像神经网络这样的算法可能会尝试近似 $f$ （见通用逼近定理）。问题在于，许多统计/ML 算法可能无法以易于解释的方式显示近似值。

虽然神经网络可能会尝试逼近 $f$ ，它的架构很难（或几乎不可能）解释。因此，很多人将其视为“黑匣子”。因为兴趣的转移可能更多是在预测上，而不是在参数估计的推断上，所以只要预测的主要目标执行良好，用户可能有一个“黑匣子”这一事实并不重要。

此外，并非所有统计/ML 算法都必须像神经网络一样复杂。您可以拥有运行良好且易于解释的简单架构，例如广义线性模型（即线性回归/逻辑回归）。这些算法在某些问题上的表现与神经网络一样好。

因此，重点的差异实际上只是由于项目/研究目标，而不是统计和机器学习之间的差异。顺便说一句，两者之间几乎没有区别。早在“机器学习”一词流行之前，计算机科学/工程界就已经从统计界借鉴了许多想法。

其它你可能感兴趣的问题

上一篇后见之明体验回放，如何定义部分已知的最终目标下一篇将许多熊猫数据框保存在一起的最佳方法是什么？