机器算法验证 - 亚马逊的“平均评级”是否具有误导性？ - 吾爱随笔录

亚马逊的“平均评级”是否具有误导性？

机器算法验证意思是序数数据李克特

2022-01-30 10:02:46

如果我理解正确，1-5 级的图书评分是李克特分数。也就是说，我的 3 不一定是别人的 3。这是一个序数规模的IMO。一个人不应该真正平均序数尺度，但绝对可以采用众数、中位数和百分位数。

那么，由于大部分人口比上述统计数据更了解手段，因此改变规则是否“可以”？尽管研究界强烈谴责对基于李克特量表的数据取平均值，但对大众（实际上来说）这样做可以吗？在这种情况下取平均值是否会误导？

像亚马逊这样的公司似乎不太可能摸索基本统计数据，但如果不是，那么我在这里错过了什么？我们是否可以声称序数尺度是序数的方便近似来证明取平均值的合理性？有什么依据？

4个回答

使用平均值总结 5 分评级的集中趋势的好处

正如@gung 提到的，我认为将五点项目的平均值作为集中趋势指标通常有很好的理由。我已经在这里概述了这些原因。

转述：

平均值很容易计算

均值直观且易于理解

平均值是一个数字

其他索引通常会产生类似的对象排序

为什么均值对亚马逊有利

想想亚马逊报告平均值的目标。他们的目标可能是

为项目提供直观易懂的评分
确保用户接受评级系统
确保人们了解评级的含义，以便他们可以适当地使用它来为购买决策提供信息

亚马逊提供了某种四舍五入的平均值、每个评分选项的频率计数以及样本大小（即评分数）。这些信息大概足以让大多数人了解关于该项目的一般情绪和对此类评级的信心（即，具有 20 个评级的 4.5 比具有 2 个评级的 4.5 更可能准确；具有 10 5 的项目-star 评级和一个没有评论的 1 星评级可能仍然是一个好项目）。

您甚至可以将均值视为一种民主选择。许多选举是根据哪位候选人在两分制上获得最高平均值来决定的。同样，如果您认为每个提交评论的人都会获得投票，那么您可以将均值视为一种对每个人的投票进行同等加权的形式。

规模使用的差异真的是个问题吗？

心理学文献中已知有广泛的评级偏差（有关评论，请参见 Saal 等人 1980），例如集中趋势偏差、宽大偏差、严格偏差。此外，一些评估者会更随意，而另一些则更可靠。有些人甚至可能系统地撒谎，提供虚假的正面或虚假的负面评论。在尝试计算项目的真实平均评分时，这将产生各种形式的错误。

但是，如果您要从总体中随机抽取样本，则此类偏差会被抵消，并且在评估者的样本量足够大的情况下，您仍然会得到真实的平均值。

当然，您不会在亚马逊上获得随机样本，并且存在这样的风险，即您为某个项目获得的特定评估者集会系统地偏向于更宽松或更严格等等。也就是说，我认为亚马逊的用户会欣赏用户提交的评分来自不完美的样本。我还认为，在许多情况下，如果样本量合理，大多数反应偏差差异很可能会开始消失。

超出平均水平的可能进展

在提高评分的准确性方面，我不会挑战平均值的一般概念，而是我认为还有其他方法可以估计一个项目的真实总体平均评分（即，将获得的平均评分是要求对项目进行评分的大型代表性样本）。

基于可信度的权重评估者
使用贝叶斯评分系统，将平均评分估计为所有项目的平均评分和特定项目的平均值的加权总和，并随着评分数量的增加增加特定项目的权重
根据跨项目的任何一般评分趋势调整评分者的信息（例如，通常给 3 分的人的 5 比通常给 4 分的人更有价值）。

因此，如果评分的准确性是亚马逊的主要目标，我认为它应该努力增加每件商品的评分数量并采用上述一些策略。在创建“最佳”排名时，此类方法可能特别相关。然而，对于页面上不起眼的评分，很可能样本均值更好地满足了简单和透明的目标。

参考

Saal, FE, Downey, RG 和 Lahey, MA (1980)。评级评级：评估评级数据的心理测量质量。心理公报，88, 413。

在这里有点技术性，这些评级实际上不是李克特量表；它们只是序数评级。现在，话虽如此，您的观点基本上是正确的。但是，我经常认为这个问题太多了。需要注意的一点是，通常可以理解，许多序数项的平均值可以近似为区间，因此，当有许多评级时，平均值成为更合理的表示。我发现@JeromyAnglim 的这个答案非常好（真的，这个问题和所有随之而来的答案都值得一读）。有关更理论的处理，请参见此处. 另一方面，我喜欢亚马逊，但我认为没有理由期待他们的统计复杂性，尤其是在基本的网站设计方面——重点是消费者的可用性，而不是给统计学教授留下深刻印象。

对此大家都有很好的意见。我真的不认为我可以添加更多。但是，我会发布这个：

根据我的经验，评分量表数据的平均值通常与我们试图与评分量表相关联的真实世界指标的水平最密切相关。我们发现了很多线性关系，因此平均是总结数据的更好方法之一。话虽如此，正如杰罗米指出的那样，大多数分析评级量表集中趋势的方法在大多数情况下都会给出类似的结果（排名等）。

另外，我怀疑亚马逊可能并不那么关心科学有效性。归根结底，亚马逊的目标是让人们在 Amazon.com 上进行更多购物，而评论帮助实现这一目标的方式可能不会因使用任何单一数字摘要而有所不同。好的产品将得到奖励，真正糟糕的产品将受到惩罚，紧张的购买者将有机会更详细地审查利弊。

其它你可能感兴趣的问题

上一篇澄清解释置信区间？下一篇将一长串字符串（单词）聚类成相似组