您将如何计算 IMDB 电影评分?

机器算法验证 评分
2022-03-16 22:14:27

我这样做只是为了学习目的。我无意扭转 IMDB 的方法。

我问自己我拥有 IMDB 或类似网站。我将如何计算电影评分?

我能想到的只是算术平均值

对于下面提供的电影数据,计算将是

(38591*10 + 27994*9 + 32732*8 + 17864*7 + 7361*6 + 2965*5 + 1562*4 + 1073*3 + 891*2 + 3401*1) / 134434 = 8.17055953

替代文字


我的评分 8.17055953 接近 IMDB 的算术平均值。

  1. 我的分数有什么问题?为什么不理想(因为 IMDB 没有使用它)?
  2. 如果你必须计算。你会怎么做?你会考虑哪些因素?

笔记:

我不是在询问顶部/底部列表的排名机制(此处显示:http ://www.imdb.com/chart/top )。这个问题是关于 IMDb 如何将算术平均值转换为加权平均值。以“马诺斯:命运之手”为例——未加权平均为 2.1,加权平均为 1.5。(或“教父”,选票填充的另一个例子。)

3个回答

部分回答。请参阅标题为:电影“X”的平均票数应该是 Y!为什么显示另一个评分?

简而言之,IMDb 使用:

一个复杂的选民加权系统,以确保最终评级代表一般投票人群,并且不受非定期参与投票的个人的过度影响。

另请注意:

为了避免该计划被滥用,[IMDb 没有] 披露所使用的确切方法。

首先,定义感兴趣的理论结构。可以通过多种方式定义评级:

  • 理论目标人群是多少?整个世界,说英语的人,访问 IMDB 的人,看过相关电影的人?
  • 目标时间范围是多少?它是电影现在的评分,或者是上映时间的平均评分。
  • 是民主评级还是专家评级?有些人更了解电影的价值。有些人更能区分好电影和坏电影。随着时间的推移,有些人的评分更加一致。是否应该给予对电影评分“更好”的人的评分更高的价值。这与美学的哲学问题和主体间善的意义有关。
  • 假设您可以在整个时间范围内从整个目标人群中获得诚实的评分,这些评分与综合评分之间的映射是什么?这可能是算术平均值。或者,还有许多其他组合单个评级的方法。例如,您可以使用插值中位数。一些替代方案对电影的排名影响很小,但会对评级的绝对值产生重大影响。
  • 对电影感兴趣的人数与评分相关吗?

其次,使用所有可用信息来估计理论结构这就是其他人讨论的问题很重要的地方。

  • 人口调整的作用取决于您对目标人口的定义
  • 可以加入信任权重。可以使用许多指标:
    • 先前评分的数量(评分越多表明参与该网站的人越多)
    • 之前的评分与其他评分者或至少一部分评分者的一致程度(更高的一致性表明做出深思熟虑和诚实的回应;
    • 响应在较长时间内分布的程度(这表明该人不太可能试图玩弄系统)
    • 与网站的总体参与程度:例如,访问网站、参与讨论板(更多参与、更多信任)
  • 正如@csgillespie 所提到的,如果你想估计当前对这部电影的态度,你可以对最近的投票权重更大
  • 您可以权衡评级方面的专业知识。这将与信任评级相关,但存在差异。

第三,使用外部可信数据源验证和监控估算过程。

我的分数有什么问题?为什么不理想(因为 IMDB 没有使用它)?

如果分数仅供您使用,那么您的计算没有任何问题。然而,IMDB 试图让人们难以明显影响最终得分。

如果你必须计算。你会怎么做?你会考虑哪些因素?

以下是您可以考虑的一些因素(但无法检查):

  1. 最终得分可以根据已投的票数进行加权。
  2. 投票可以通过时间变量加权。例如,去年的投票不如今天的投票重要。
  3. 投票给其他电影的用户投票具有更大的权重,即 声誉系数。
  4. 也许他们合并了来自其他站点的数据。