使用每个选民的准确性和相关不确定性的投票系统

机器算法验证 准确性 不确定 加权平均数 投票系统
2022-03-28 02:48:41

比方说,我们有一个简单的“是/否”问题,我们想知道答案。并且有 N 人为正确答案“投票”。每个选民都有一个历史记录 - 1 和 0 的列表,显示他们过去对这类问题的正确或错误。如果我们将历史假设为二项分布,我们可以找到选民在这些问题上的平均表现、它们的变化、CI 和任何其他类型的置信度指标。

基本上,我的问题是:如何将置信度信息纳入投票系统

例如,如果我们只考虑每个投票者的平均表现,那么我们可以构建简单的加权投票系统:

result=sign(vvotersμv×(1)1vote)

也就是说,我们可以将选民的权重乘以(表示“是”)或乘以(表示“否”)。这是有道理的:如果选民 1 的正确答案平均值等于,而选民 2 只有,那么可能应该认为第一人的投票更重要。另一方面,如果第 1 个人只回答了 10 个此类问题,而第 2 个人回答了 1000 个此类问题,那么我们对第 2 个人的技能水平比第 1 个人更有信心——可能第 1 个人很幸运,并且在 10 个相对成功的答案之后,他将继续得到更糟糕的结果。+11.9.8

所以,更精确的问题可能听起来像这样:是否有统计度量结合了 -强度和对某些参数的信心?

2个回答

您应该将选民的专业知识视为您系统的潜在变量然后,您可以使用贝叶斯推理解决您的问题。作为图形模型的表示可能是这样的:

图形模型

让我们将变量表示为真实答案,表示选民的投票,表示其历史。假设您还有一个“专业知识”参数使得如果你在这些上加上一些先验- 例如 Beta 先验 - 你应该能够使用贝叶斯定理来推断,然后在上积分以计算 AViiHiμiPr(A=Vi)=μiμiPr(μiHi)μi

Pr(AVi,Hi)=μiPr(A,μiAi,Hi) dμi

这些系统很难解决。您可以使用 EM 算法作为近似值,或使用完全似然最大化方案来执行精确的贝叶斯推理。

查看这篇论文Variational Inference for Crowdsourcing,Liu, Peng 和 Ihler 2012昨天在 NIPS 上发表!),了解解决此任务的详细算法。

我知道这现在真的很老了,但我只是在搜索时偶然发现了这个问题,我认为另一种思考如何解决它的方法是使用在线学习框架和专家建议。在这种情况下,学习者从一组“专家”(选民)那里接收预测(投票),并且必须根据这个建议选择要预测自己的内容。学习者做出预测后,真实的结果就会被揭示出来,学习者会相应地调整其对每个专家建议的关注程度的权重,以最大限度地减少长期遗憾(错误决策所带来的损失减去决策所带来的损失)最佳专家)。

合适的参考资料是“跟踪最佳专家”(Warmuth & Herbster,1998 年):https ://users.soe.ucsc.edu/~manfred/pubs/J39.pdf和“通过混合过去的后验来跟踪一小组专家” (Bousquet 和 Warmuth,2002 年):https ://jmlr.csail.mit.edu/papers/volume3/bousquet02b/bousquet02bbw.pdf 。这些算法带有经过验证的“遗憾界限”,但它们的实际性能将根据专家群体随时间的变化而变化。