期望最大化可以从多个噪声源估计真值和混淆矩阵吗?

数据挖掘 数据挖掘 混淆矩阵 参数估计 期望最大化
2021-10-01 16:48:41

假设我们有m源,每个源都嘈杂地观察同一组n结果集中的独立事件{A,B,C}. 每个来源都有一个混淆矩阵,例如来源i

Ci=[0.980.010.070.010.970.000.010.020.93]

其中每一列与真相有关,每一行与观察有关。例如。如果真实事件是B 然后来源 i 会在 97% 的时间里做对,并观察 A 1% 的时间和 C2%的时间。我们可以假设对角线元素 > 95%

给定一个序列 n 事件,其中每个事件 j 被来源观察到 i 作为 Oi,j, 估计真值的 pmf 是微不足道的 Tj 通过解决 P(Tj|O1,j,,Om,j) 使用贝叶斯公式(给定一些关于事件本身概率的合理先验,比如统一)。

然而,假设我们没有混淆矩阵,也没有基本事实,而是想估计它们。一种算法是:

  • 从每个来源的一些合理的混淆矩阵开始 Ci,0
  • 修复混淆矩阵 Ci,k, 估计最可能的真相 Tj,k 使用贝叶斯公式
  • 修正真相 Tj,k, 估计新的混淆矩阵 Ci,k+1 基于每个来源得到它“错误”的频率(据称)
  • 重复最后两步递增 k直到收敛

这似乎是 EM 算法,但我不知道如何正式展示它。(不,这不是家庭作业。)

1)这是EM,还是数据融合中的其他标准算法?

2)它有收敛保证吗?

3)它是否对解决方案的质量以及最终的混淆矩阵与真实混淆矩阵的近似程度有任何保证?

4) 估计的参数数量与样本数量是否存在问题?例如。好像有n+6m正在估计的参数 -n真相和6m所有混淆矩阵中的元素(每列的最后一个单元格由其他单元格确定)。

编辑

这两篇论文准确地描述了这个问题以及如何使用 EM 来解决它:

使用 EM 算法对观察者错误率进行最大似然估计 http://crowdsourcing-class.org/readings/downloads/ml/EM.pdf

从嘈杂的单标签数据中学习 https://openreview.net/pdf?id=H1sUHgb0Z

所以答案是:

1) 正确解释是的,这是 EM

2) EM 一般收敛到局部最优

3) 不是真的。在这个问题中,虽然由于来源是 97%+ 准确的,我预计估计会相当不错

4)我不认为这是一个问题——这是一个“非参数”EM算法,因为混淆矩阵没有以任何方式参数化。我处理的样本量在 100000 以上,所以应该不是问题

1个回答

我对您的问题没有完整的答案,但我想提供帮助(并且很想知道完整的答案)。在一个更简单的情况下,当您有一个来源时m=i=1,在我看来,您正在描述一个类似于隐藏马尔可夫模型的场景,该模型使用基于EM 算法的解决方案(Baum-Welch 算法) ——也就是说,如果您进一步假设满足马尔可夫属性由于马尔可夫链的平稳分布的收敛特性呈指数级增长,因此算法收敛可能仅限于实现的算法。我希望这些信息可以帮助您指出正确的方向。