机器算法验证 - 您将如何计算 IMDB 电影评分？ - 吾爱随笔录

机器算法验证评分

2022-03-16 22:14:27

我这样做只是为了学习目的。我无意扭转 IMDB 的方法。

我问自己我拥有 IMDB 或类似网站。我将如何计算电影评分？

我能想到的只是算术平均值

对于下面提供的电影数据，计算将是

(38591*10 + 27994*9 + 32732*8 + 17864*7 + 7361*6 + 2965*5 + 1562*4 + 1073*3 + 891*2 + 3401*1) / 134434 = 8.17055953

替代文字

我的评分 8.17055953 接近 IMDB 的算术平均值。

笔记：

我不是在询问顶部/底部列表的排名机制（此处显示：http ://www.imdb.com/chart/top ）。这个问题是关于 IMDb 如何将算术平均值转换为加权平均值。以“马诺斯：命运之手”为例——未加权平均为 2.1，加权平均为 1.5。（或“教父”，选票填充的另一个例子。）

3个回答

简而言之，IMDb 使用：

一个复杂的选民加权系统，以确保最终评级代表一般投票人群，并且不受非定期参与投票的个人的过度影响。

另请注意：

为了避免该计划被滥用，[IMDb 没有] 披露所使用的确切方法。

首先，定义感兴趣的理论结构。可以通过多种方式定义评级：

理论目标人群是多少？整个世界，说英语的人，访问 IMDB 的人，看过相关电影的人？
目标时间范围是多少？它是电影现在的评分，或者是上映时间的平均评分。
是民主评级还是专家评级？有些人更了解电影的价值。有些人更能区分好电影和坏电影。随着时间的推移，有些人的评分更加一致。是否应该给予对电影评分“更好”的人的评分更高的价值。这与美学的哲学问题和主体间善的意义有关。
假设您可以在整个时间范围内从整个目标人群中获得诚实的评分，这些评分与综合评分之间的映射是什么？这可能是算术平均值。或者，还有许多其他组合单个评级的方法。例如，您可以使用插值中位数。一些替代方案对电影的排名影响很小，但会对评级的绝对值产生重大影响。
对电影感兴趣的人数与评分相关吗？

其次，使用所有可用信息来估计理论结构。这就是其他人讨论的问题很重要的地方。

人口调整的作用取决于您对目标人口的定义
可以加入信任权重。可以使用许多指标：
- 先前评分的数量（评分越多表明参与该网站的人越多）
- 之前的评分与其他评分者或至少一部分评分者的一致程度（更高的一致性表明做出深思熟虑和诚实的回应；
- 响应在较长时间内分布的程度（这表明该人不太可能试图玩弄系统）
- 与网站的总体参与程度：例如，访问网站、参与讨论板（更多参与、更多信任）
正如@csgillespie 所提到的，如果你想估计当前对这部电影的态度，你可以对最近的投票权重更大
您可以权衡评级方面的专业知识。这将与信任评级相关，但存在差异。

第三，使用外部可信数据源验证和监控估算过程。

我的分数有什么问题？为什么不理想（因为 IMDB 没有使用它）？

如果分数仅供您使用，那么您的计算没有任何问题。然而，IMDB 试图让人们难以明显影响最终得分。

如果你必须计算。你会怎么做？你会考虑哪些因素？

以下是您可以考虑的一些因素（但无法检查）：

其它你可能感兴趣的问题