数据挖掘 - 回归 - 随机误差项 - 吾爱随笔录

数据挖掘回归算法

2022-03-02 06:07:12

当我们在输出数据集中使用回归算法时，这是因为我们假设我们的输入数据和一些定量值之间存在关系。这表示为：

$y = f(x)+\varepsilon$ ，其中 x 是输入向量，是随机误差项。 $\varepsilon$

现在，这个随机误差项可以有任何概率分布？

2个回答

$\varepsilon$ 被称为具有 0 均值的噪声项。分布在现实世界中是随机的，但您可以对其分布做出假设。

例如，高斯过程机器学习表明它遵循高斯分布，即：。 $\varepsilon \sim \mathcal{N}\left(0, \sigma^ 2 \right)$

后一种分布的方差可以看作是我们通过最大化似然函数或通过数据集的先验信息获得的超参数。您可以在 Rasmussen、CE 和 CK Williams 这本书中找到更多信息。“我（2006）机器学习的高斯过程。” (2006) $\sigma$

在某些情况下，通过查看您的先验数据并估计可能的误差源，您可以先验地预期误差分布的类型并尝试后验地评估此假设（主要使用数据驱动的方法）。

不，如果它是一个随机误差，它必须遵循平均值为零的正态分布。

相反，如果该错误不遵循正态分布，则它不是随机的：它是系统的，您可能必须考虑原始函数f(x)。

其它你可能感兴趣的问题