什么是机器学习中的贝叶斯错误?

机器算法验证 机器学习 深度学习 术语
2022-02-04 22:14:35

http://www.deeplearningbook.org/contents/ml.html第116页解释贝叶斯错误如下

理想的模型是一个只知道生成数据的真实概率分布的预言机。即使这样的模型在许多问题上仍然会产生一些错误,因为分布中可能仍然存在一些噪声。在监督学习的情况下,从 x 到 y 的映射可能本质上是随机的,或者 y 可能是一个确定性函数,它涉及除 x 中包含的变量之外的其他变量。预言机根据真实分布 p(x, y) 进行预测所产生的误差称为贝叶斯误差。

问题

  1. 请直观地解释贝叶斯错误?
  2. 它与不可约误差有何不同?
  3. 我可以说总误差 = 偏差 + 方差 + 贝叶斯误差吗?
  4. “y可能本质上是随机的”是什么意思?
3个回答

贝叶斯误差是可以达到的最低可能的预测误差,与不可约误差相同。如果人们确切地知道是什么过程生成了数据,那么如果该过程是随机的,那么仍然会出错。这也是“本质上是随机的”的意思。y

例如,当掷一枚公平的硬币时,我们确切地知道是什么过程产生了结果(二项分布)。然而,如果我们要预测一系列抛硬币的结果,我们仍然会犯错误,因为这个过程本质上是随机的(即随机的)。

要回答您的另一个问题,您正确地说总误差是(平方)偏差、方差和不可约误差的总和。另请参阅这篇文章,以获得对这三个概念的易于理解的解释。

统计的本质是缺乏信息:例如:要确定抛硬币的输出,我们必须知道测试点的地球引力、硬币曲率、风速、手的姿势……如果确定了,它肯定会知道那个实验的输出。但我们无法确定这一切。或者在决定房子的价格时,我们要知道位置、市场、宏观经济……不仅仅是到中心的距离和房子的大小。=> 因此,在 ML 中,如果我们的训练集只包含到中心的距离和房子的大小,输出仍然是随机的,无法确定,-> 即使使用预言机(在 Deep学习书:“y 可能是一个确定性函数,它涉及除 x 中包含的变量之外的其他变量”)

来自https://www.cs.helsinki.fi/u/jkivinen/opetus/iml/2013/Bayes.pdf对于分类任务,贝叶斯误差定义为:

minf=Cost(f)

贝叶斯分类器定义为: argminf=Cost(f)

所以总误差=贝叶斯误差 + 你的模型比贝叶斯误差差多少 Bias + Variance + Bayes error 这可能取决于你的模型和“分布噪声”的固有性质

“y可能本质上是随机的”是什么意思?例如,但是你收集的 y 总是被污染为,其中所以你无法知道真正的 y,你所拥有的成本估算是本来就被污染了。即使甲骨文给你正确的答案,你认为他们是错误的。y=f(x)=sin(x)y~=y+ttN(0,σ2)