对于具有更多结果的变量,是否有等效于 Wilson 得分置信区间的下限

机器算法验证 置信区间 排行
2022-04-12 07:43:06

在阅读“如何不按平均评分排序”(http://www.evanmiller.org/how-not-to-sort-by-average-rating.html)后,我很想知道是否有同样的事情对于具有两个以上结果 (0,1) 甚至连续变量的变量。

例如,您如何将下限推广到亚马逊问题?显然有 5 个结果(用户给出的每个星数一个)。你会用什么衡量标准让 2000 票的 4.5 星比 2 票的 5 星更好?

此外,在我看来,这种问题可能有贝叶斯解释。我的意思是使用“如何不排序”中的公式离在分布中设置先验不远,也许是一个伯努利,参数是在项目所属的整个数据集/类别上推断出来的?有谁知道这个特定问题的参考?

1个回答

很容易想到以下“解决方法”,它使多排名系统适应链接文章中讨论的“upvote/downvote”解决方案:

假设您拥有流行的 5 星评级系统。所以我们有很多票,每个票的值是:1、2、3、4 或 5。

要将这些评级“转换”为赞成/反对票,请使用以下规则:

For star rating -- Add

*     - 0.00 to up votes and 1.00 to down votes (i.e. a full down vote)
**    - 0.25 to up votes and 0.75 to down votes
***   - 0.50 to up votes and 0.50 to down votes
****  - 0.75 to up votes and 0.25 to down votes
***** - 1.00 to up votes and 0.00 to down votes (i.e. a full up vote)

在我们将 5 星评级降低到上/下评级后,我们可以继续进行 Evan Miller 文章中描述的通常的分数计算。

因为我不是统计学家或数学家,如果这有意义与否,我很想听听其他人的意见。