使用平均值总结 5 分评级的集中趋势的好处
正如@gung 提到的,我认为将五点项目的平均值作为集中趋势指标通常有很好的理由。我已经在这里概述了这些原因。
转述:
- 平均值很容易计算
- 均值直观且易于理解
- 平均值是一个数字
- 其他索引通常会产生类似的对象排序
为什么均值对亚马逊有利
想想亚马逊报告平均值的目标。他们的目标可能是
- 为项目提供直观易懂的评分
- 确保用户接受评级系统
- 确保人们了解评级的含义,以便他们可以适当地使用它来为购买决策提供信息
亚马逊提供了某种四舍五入的平均值、每个评分选项的频率计数以及样本大小(即评分数)。这些信息大概足以让大多数人了解关于该项目的一般情绪和对此类评级的信心(即,具有 20 个评级的 4.5 比具有 2 个评级的 4.5 更可能准确;具有 10 5 的项目-star 评级和一个没有评论的 1 星评级可能仍然是一个好项目)。
您甚至可以将均值视为一种民主选择。许多选举是根据哪位候选人在两分制上获得最高平均值来决定的。同样,如果您认为每个提交评论的人都会获得投票,那么您可以将均值视为一种对每个人的投票进行同等加权的形式。
规模使用的差异真的是个问题吗?
心理学文献中已知有广泛的评级偏差(有关评论,请参见 Saal 等人 1980),例如集中趋势偏差、宽大偏差、严格偏差。此外,一些评估者会更随意,而另一些则更可靠。有些人甚至可能系统地撒谎,提供虚假的正面或虚假的负面评论。在尝试计算项目的真实平均评分时,这将产生各种形式的错误。
但是,如果您要从总体中随机抽取样本,则此类偏差会被抵消,并且在评估者的样本量足够大的情况下,您仍然会得到真实的平均值。
当然,您不会在亚马逊上获得随机样本,并且存在这样的风险,即您为某个项目获得的特定评估者集会系统地偏向于更宽松或更严格等等。也就是说,我认为亚马逊的用户会欣赏用户提交的评分来自不完美的样本。我还认为,在许多情况下,如果样本量合理,大多数反应偏差差异很可能会开始消失。
超出平均水平的可能进展
在提高评分的准确性方面,我不会挑战平均值的一般概念,而是我认为还有其他方法可以估计一个项目的真实总体平均评分(即,将获得的平均评分是要求对项目进行评分的大型代表性样本)。
- 基于可信度的权重评估者
- 使用贝叶斯评分系统,将平均评分估计为所有项目的平均评分和特定项目的平均值的加权总和,并随着评分数量的增加增加特定项目的权重
- 根据跨项目的任何一般评分趋势调整评分者的信息(例如,通常给 3 分的人的 5 比通常给 4 分的人更有价值)。
因此,如果评分的准确性是亚马逊的主要目标,我认为它应该努力增加每件商品的评分数量并采用上述一些策略。在创建“最佳”排名时,此类方法可能特别相关。然而,对于页面上不起眼的评分,很可能样本均值更好地满足了简单和透明的目标。
参考
- Saal, FE, Downey, RG 和 Lahey, MA (1980)。评级评级:评估评级数据的心理测量质量。心理公报,88, 413。