为什么噪声数据将有利于贝叶斯?

机器算法验证 贝叶斯 噪音 pac学习
2022-04-15 05:34:13

最近我正在阅读 2001 年的一篇论文,Michael D. Ernst、Jake Cockrell、William G. Griswold、David Notkin Dynamicly Discovering Likely Program Invariants to Support Program Evolution TSE 2001,在这篇论文中,它说,

贝叶斯和 PAC 学习等学习方法假设输入数据中有噪声,因此分类不准确是可以接受的,甚至是有益的。

我从来不知道贝叶斯会从嘈杂的数据中受益。所以,我的问题是:

  1. 嘈杂的数据真的会让贝叶斯受益吗?如果是这样,它会提高准确性还是只是加速模型?
  2. 这里的“嘈杂数据”到底是什么意思?因为我试图检查一些资源,一篇论文说,嘈杂的数据会加速 EM,而那里的嘈杂数据意味着潜在数据或缺失数据。我觉得EM与贝叶斯有一些联系,所以我想知道是否有任何联系......
1个回答

添加噪声会降低贝叶斯结果的质量,就像它对频率论和似然论方法所做的那样。它也会减慢模型的速度。这可以从一个简单的退化示例中看出。

考虑由五个点 (1,1)、(2,2)、(3,3)、(4,4) 和 (5,5) 组成的数据的情况。斜率为 1,截距为零。如果模型有效,则参数有 100% 的确定性。后验将是狄拉克三角函数。现在添加噪声会创建一个普通的后验,但其必要性不太确定。此外,任何传播不确定性的东西都会增加计算时间。

可变性的增加确实可以改进贝叶斯方法,因为它可以识别信号而不是噪声。想象一个只有绿色和棕色眼睛个体的训练集。它将如何处理训练集之外的第一个蓝眼睛的人?通过在数据集中有一个蓝眼睛的人,这种自然变异性的增加提高了模型与现实的匹配程度。这将加快处理速度。它将缩小可变性。