我正在尝试为 StackExchange 站点组合一个数据挖掘包,特别是,我一直在尝试确定“最有趣”的问题。我想使用问题分数,但要消除由于视图数量而产生的偏差,但我不知道如何严格地处理这个问题。
在理想世界中,我可以通过计算对问题进行排序, 在哪里是总票数和是观看次数。毕竟,它将衡量对问题投赞成票的人的百分比,减去对问题投反对票的人的百分比。
不幸的是,投票模式要复杂得多。投票倾向于“平稳”到一定程度,这会大大低估广受欢迎的问题。在实践中,一个有 1 次浏览和 1 次赞成的问题肯定会比任何其他有 10,000 次浏览但少于 10,000 票的问题得分和排序更高。
我目前正在使用作为一个经验公式,但我想准确一点。我怎样才能以数学上的严谨性来解决这个问题?
为了解决一些评论,我将尝试以更好的方式重述问题:
假设我有一个问题总票数和意见。我希望能够估计总票数当视图达到.
这样,我可以简单地选择一个标称值并根据预期排序所有问题全部的。
我在 SO datadump 上创建了两个查询,以更好地显示我正在谈论的效果:
结果:
结果:
结果,不确定是否更直更好:(穿蓝色衣服,红色的)