包含游戏分数的 Elo 类型排名系统

机器算法验证 排行 游戏 评分 埃洛
2022-04-01 02:10:48

Elo 评级系统用于计算个人或团队之间的相对技能水平它可以应用于许多类型的游戏和运动,但在应用时,它只考虑输赢。

这种方法是否有一个变体,它包含了一场比赛的获胜分数?

也就是说,一种方法会考虑游戏是 010-1还是更接近的游戏10-9

2个回答

概括 Elo 的方法是在配对比较模型的更广泛背景下考虑它。这些模型最初是在心理学中开发的,用于模拟参与者对决策和选项的排名和偏好。Classic Elo 可以看作是 Bradley-Terry 模型的离散动态近似,是配对比较文献中最早和最著名的模型之一,可以表述如下:

P(i>j)=11+exp(βjβi)
即,我们将玩家 i 击败 j(或一般对象 i 排名高于 j)的概率建模为玩家 i 和 j 的相对强度差异的函数(βiβj)。在频率论的背景下,我们无法确定β,但我们可以估计它们之间的相对值(在常客的情况下,通常对βs,即它们总和为 1,如果需要,用于获得可识别性。在贝叶斯背景下,先验βs 实现了贝叶斯意义上的可识别性)。

所以本质上,Bradley Terry 模型只是一个逻辑回归(技术上是一个动态近似,有关关系的更精确请参见https://www.stat.berkeley.edu/~aldous/Papers/me150.pdf),其中回归量是 1,-1 指标,玩家在给定的环境中进行游戏。

我们看到经典 elo 被限制为 0,1 结果的原因是因为可能性,它模拟了二元结果。然后我们看到,适应不同结果的解决方案是修改可能性。有大量文献将配对比较模型应用于可以想象的体育运动中几乎所有相关案例。在这篇文章的最后,我会放一些论文的例子。

在美式足球中,这是通过将得分差异建模为正常值来完成的。比如说SA,SB分别是 A 队和 B 队的得分(通常 A 表示主队,以主场优势为模型)。

SASBN(f(βAβB),σ)
我们再次将分数差异建模为强度差异的某种函数。方差(σ)可以以多种不同的方式建模,包括作为每个团队的得分差异和/或随时间变化的东西的函数。有关此示例,请参见https://www.researchgate.net/publication/2244176_A_State-Space_Model_for_National_Football_League_Scores这是文学史上最有影响力的论文之一。请注意,在之前的一篇论文中,他们提到他们花时间验证了观察到的美式足球得分差异大致正常的假设。在得分较低的运动中,这种假设不太可能成立。例如,在一项非常低分的运动中,例如欧洲足球,可以将结果建模为有序的 logit 或 probit。不同的运动将需要不同的可能性、方法和验证来捕捉潜在的获胜过程。

一篇非常聪明和优秀的论文,通过将投注对数赔率直接建模为正态分布(https://arxiv.org/pdf/1701.05976.pdf),解决了为不同运动寻找统一方法的问题。这个想法是,虽然不同运动的比赛分数具有完全不同的属性,但投注市场在许多运动中是相同的。投注线暗示市场概率,对数赔率大约是正常数量。如果您可以掌握投注信息,这是一种提取更多信息的好方法,而不是简单的二元输赢。

所以简而言之,解决方案是在配对比较模型的背景下考虑 Elo。这个框架更丰富、更灵活,允许不同的可能性规范,另外还可以轻松适应随时间变化的评级(至少在贝叶斯环境中)。在框架中容纳协变量也更容易。大多数 elo 型模型能够适应主场优势,但很少有更多的协变量。Elo 类型自身模型的唯一优点是它们易于动态计算,如果目标是为在线国际象棋或电子游戏创建排名,这是一个非常有用的属性。只有一些成对的比较模型变成了类似 elo 的模型,但这是越来越多的文献。Microsoft trueskill 就是一个例子。如果目标是打赌或小型非动态数据集,这不应该是一个很大的缺点。也有许多用于许多配对比较模型的现有软件包。

附加文件

用排名建模运动(例如田径运动):http ://www.glicko.net/research/multicompetitor.pdf

随机和动态模型:http ://www.glicko.net/research/dpcmsv.pdf

在 Elo 评分系统的上下文中,更新公式如下: R' = R + K (S - E) K 是 K 因子,可用于根据您的特定要求(应用程序)调整系统. S 是一个离散变量,如果玩家获胜,则为 1,如果平局,则为 1/2,如果失败,则为 0。E 是获胜的概率。

话说,如果要合并分数,实际上,一场比赛对获胜玩家的奖励可以如下: R'- R = K (1 - E) = 10(例如从 10-1) , 如果你有两个球员或球队的初始评分,你可以计算出 E。

因此,您将不得不使用 K 因子(一些数据分析)来应用 Elo 的评分系统来满足您的要求。