你需要一个概率模型。
排名系统背后的理念是,一个数字足以代表球员的能力。我们可以称这个数字为他们的“实力”(因为“排名”在统计中已经意味着特定的东西)。我们可以预测,当力量(A)超过力量(B)时,玩家 A 将击败玩家 B。但是这个陈述太弱了,因为(a)它不是量化的,并且(b)它没有考虑到一个较弱的玩家偶尔会击败一个较强的玩家的可能性。我们可以通过假设 A 击败 B 的概率仅取决于他们的实力差异来克服这两个问题。 如果是这样,那么我们可以重新表达所有必要的优势,以便优势差异等于获胜的对数几率。
具体来说,这个模型是
logit(Pr(A beats B))=λA−λB
其中,根据定义,是对数赔率,我写来表示玩家 A 的实力等。logit(p)=log(p)−log(1−p)λA
这个模型的参数和玩家一样多(但自由度少了一个,因为它只能识别相对强度,所以我们将其中一个参数固定为任意值)。它是一种广义线性模型(在二项式家族中,带有 logit 链接)。
可以通过最大似然估计参数。同样的理论提供了一种在参数估计周围建立置信区间并检验假设的方法(例如,根据估计,最强的玩家是否明显强于估计的最弱的玩家)。
具体来说,一组游戏的可能性是产品
∏all gamesexp(λwinner−λloser)1+exp(λwinner−λloser).
在固定其中一个的值之后,其他的估计值就是使这种可能性最大化的值。因此,改变任何估计值都会降低其最大值的可能性。如果减少太多,则与数据不一致。通过这种方式,我们可以找到所有参数的置信区间:它们是改变估计值不会过度降低对数似然度的限制。一般假设可以类似地进行检验:假设约束强度(例如通过假设它们都相等),这个约束限制了可能性的大小,如果这个限制的最大值与实际最大值相差太远,假设是被拒绝。λ
在这个特殊问题中,有 18 个游戏和 7 个自由参数。一般来说,参数太多了:有很大的灵活性,可以在不改变最大似然度的情况下完全自由地改变参数。因此,应用 ML 机器很可能证明是显而易见的,即可能没有足够的数据对强度估计有信心。