假设我们有源,每个源都嘈杂地观察同一组结果集中的独立事件. 每个来源都有一个混淆矩阵,例如来源:
其中每一列与真相有关,每一行与观察有关。例如。如果真实事件是 然后来源 会在 97% 的时间里做对,并观察 1% 的时间和 2%的时间。我们可以假设对角线元素 > 95%
给定一个序列 事件,其中每个事件 被来源观察到 作为 , 估计真值的 pmf 是微不足道的 通过解决 使用贝叶斯公式(给定一些关于事件本身概率的合理先验,比如统一)。
然而,假设我们没有混淆矩阵,也没有基本事实,而是想估计它们。一种算法是:
- 从每个来源的一些合理的混淆矩阵开始
- 修复混淆矩阵 , 估计最可能的真相 使用贝叶斯公式
- 修正真相 , 估计新的混淆矩阵 基于每个来源得到它“错误”的频率(据称)
- 重复最后两步递增 直到收敛
这似乎是 EM 算法,但我不知道如何正式展示它。(不,这不是家庭作业。)
1)这是EM,还是数据融合中的其他标准算法?
2)它有收敛保证吗?
3)它是否对解决方案的质量以及最终的混淆矩阵与真实混淆矩阵的近似程度有任何保证?
4) 估计的参数数量与样本数量是否存在问题?例如。好像有正在估计的参数 -真相和所有混淆矩阵中的元素(每列的最后一个单元格由其他单元格确定)。
编辑
这两篇论文准确地描述了这个问题以及如何使用 EM 来解决它:
使用 EM 算法对观察者错误率进行最大似然估计 http://crowdsourcing-class.org/readings/downloads/ml/EM.pdf
从嘈杂的单标签数据中学习 https://openreview.net/pdf?id=H1sUHgb0Z
所以答案是:
1) 正确解释是的,这是 EM
2) EM 一般收敛到局部最优
3) 不是真的。在这个问题中,虽然由于来源是 97%+ 准确的,我预计估计会相当不错
4)我不认为这是一个问题——这是一个“非参数”EM算法,因为混淆矩阵没有以任何方式参数化。我处理的样本量在 100000 以上,所以应该不是问题