在许多问答网站,例如 StackExchange,人们可以对每个答案投赞成票或反对票。这些网站通常还尝试使用投票来对答案进行排序,因此最有可能有用或准确的答案往往会出现在最靠近顶部的位置。给定每个答案的赞成票和反对票的数量,应该如何对答案进行排序?
例子。为了说明为什么我认为这个问题可能包含一些非平凡的统计内容,让我调查一下人们可能会考虑的一些方法以及它们的一些缺点。在每种方法中,我们从每个答案的赞成票和反对票中计算一个分数,然后按分数对答案进行排序,所以唯一的问题是使用什么方法来计算分数。
赞成票减去反对票。加法差异很容易计算。 限制。一个有 121 个赞成票和 100 个反对票的答案真的比一个有 20 个赞成票和 0 个反对票的答案更好吗?
赞成票除以总票数。这估计了对答案持肯定态度的选民比例,这本身可以说是自然而有意义的。限制。1 个赞成和 0 个反对的答案真的比 8 个赞成和 1 个反对的答案更好吗?
计算置信区间。我想我们可以为每个答案计算一个置信区间,即如果他们投票,他们会投赞成票的真实比例的置信区间。但目前尚不清楚如何将其扩展到完整的排序方案;当两个答案的置信区间重叠时我们该怎么办?
拉普拉斯平滑。我们可以将拉普拉斯平滑(加法平滑)应用于赞成票和反对票的计数,然后估计正面投票的比例。如果我们对答案有个赞成票和个反对票,则其分数将为。(例如,这将声明一个有 3 个赞成票和 1 个反对票的答案等同于一个有 1 个赞成票和 0 个反对票的答案。这看起来合理吗?很难说。)