Dempster-Shafer 理论与贝叶斯推理有何不同?这两种方法如何处理不确定性和计算后验分布?
Dempster-Shafer 理论与贝叶斯推理有何不同?
Demster-Shafer 理论和贝叶斯网络都是在 1970 年代和 1980 年代在 AI 中崭露头角的技术,因为 AI 开始认真应对世界上的不确定性,并超越了大多数早期系统工作的无菌环境。
在 1970 年代甚至更早的时候,很明显将概率论直接应用到 AI 上是行不通的,因为维数的诅咒。随着在给定问题中需要考虑更多变量,所需的存储空间量和处理时间呈指数增长。这导致人们寻找新的方法来处理 AI 中的不确定性。
贝叶斯网络和贝叶斯学习仍然牢固地植根于概率推理,但允许将主观先验分配给概率,以结合专家知识。它还允许将问题考虑到图形结构中,以避免在大多数情况下出现维度灾难。
Dempster-Shafer 是贝叶斯网络的进一步推广,其中允许使用畸形概率分布作为捕获不确定性的一种方式。因此,例如,所有可能事件的概率不需要加起来为 1,因为可能存在我们不知道的事件。虽然从表面上看,这似乎是合理的,但大多数现代人工智能研究人员认为这是一种存在严重缺陷的方法。Cheeseman 对DS 和其他非概率方法的批评是很多这种观点的基础。Judea Pearl 是 DS 理论的另一位严厉而有影响力的批评家。
新信息融合的基本区别在于,在贝叶斯网络中,在观察到新的证据之后
为每个假设产生一个后验。
在 DS 理论中,我们寻找新证据和旧数据所暗示的世界之间的重叠。这可能会导致无意义的结果。
这是一个例子:
我们先前的信念是我们的机器人位于位置 (0,1) 的概率为 0.95,位置 (0,2) 的概率为 0.05。
一个新的信号出现。该信号表明机器人在位置 (0,0) 的概率为 0.95,位置 (0,2) 的概率为 0.05。
在贝叶斯规则下,我们考虑在每个原始假设下生成这些信号的概率,以及完全观察到这些信号的概率,如上式所示。在 DS 理论下,我们会做同样的事情。
然而,DS 理论提供了第二种解释信号的方法:作为第二种先验分布,而不是作为证据。然后我们可以将第二个先验与第一个结合起来,计算出一种联合先验:
也就是说,融合后假设的“概率”(并不总是真实概率,这是批评之一)将是每个单独先验下假设的“概率”的乘积。
在上面的示例中,这给出了一个古怪的结果:“联合先验”表示机器人在 (0,2) 处的概率为 1.0。这个和其他问题是为什么这种信息组合模式大多被放弃的原因。DS的维基百科页面上有更多示例。
我认为在其中一章末尾的Russell 和 Norvig的第四节中有更详细的讨论。