为了从一系列用户评分(从 1 到 5)中建立产品的总体评分,我认为中位数是一个好主意,这样极端值就不会产生太大影响。但是这样做,很难对产品进行排名,因为它们都会有一个完整的排名。
所以我考虑平均平均值和中位数。这是一个已知的措施吗?在这种情况下是否相关?
为了从一系列用户评分(从 1 到 5)中建立产品的总体评分,我认为中位数是一个好主意,这样极端值就不会产生太大影响。但是这样做,很难对产品进行排名,因为它们都会有一个完整的排名。
所以我考虑平均平均值和中位数。这是一个已知的措施吗?在这种情况下是否相关?
不,这听起来像是一个奇怪的指标。我怀疑通常可计算的中位数和均值的参数分布对于两者的平均值会相当讨厌,这会使这在统计学家中不受欢迎。
我怀疑您的意思是极端值的“异常值”。如果您考虑异常值的定义:
在统计学中,异常值是与其他观察结果显着不同的数据点。
https://en.wikipedia.org/wiki/Outlier
(我检查了一些定义,其中大多数都是这样的)。
我认为在 1 到 5 的离散范围内,异常值的想法听起来很奇怪。正如您所看到的,“差异显着”可以解释,我认为 1 或 5 与 2-4 差别不大,除非您的其余用户评分仅为 3。
无论如何,最好只使用平均值。如果您缺少数据的变化来使用均值 +- std dev 或置信区间分离出您想要的对象,那么这只是数据,您无能为力。