应该使用什么测试来检测游戏中的团队失衡?

机器算法验证 假设检验 游戏
2022-04-17 20:06:46

我正在玩 iPhone/Steam 游戏英雄学院。这有点像国际象棋,只是有一些随机性,并且在游戏开始时玩家选择他们将使用的团队,每个团队都有不同的优势和劣势。两名球员都可以选择同一支球队。

我们当中大约有 400 人参加了一个非官方联赛,我们在线记录我们的比赛以获取 Elo 排名。不过,我不确定有多少是活跃玩家。

我有四支球队每场比赛的输赢记录。抽奖非常罕见。最稀有的对局有143场;最常见的比赛有 260 场。数据库中有 3,234 场比赛。

确定团队实力是否相等的适当测试是什么?

让我们假设石头剪刀布不平衡是不可取的。也就是说,如果 A 队击败 B 队,B 队击败 C 队,C 队击败 A 队,我们就有了一场不平衡的比赛。每场比赛都应该是公平的。

一个复杂的问题是,很多玩家都有自己喜欢的球队,所以如果 A 队在顶级球员中非常受欢迎,它会显得更强大。我怀疑我们现在必须忽略这种影响。

另一个复杂因素是,尽管我们努力通过一个障碍来改善这一点,但先走有一点优势。让我们也忽略这种影响。

1个回答

我认为忽视球员的优势是一个坏主意,但可能很难将评级系统中可能存在的缺陷与一个选项相对于另一个选项的可能优势完全区分开来。

您可以对每对选项 A 和 B 尝试以下测试。您的零假设是评分公式是准确的并且游戏是独立的。计算选项 A 的评分公式预测的获胜次数,并将其与观察到的获胜次数进行比较。如果评分公式预测使用选项 A 的玩家将有概率获胜p, 添加p到总预期胜利,并添加(p(1p))根据原假设的总方差。如果游戏没有压倒性地不平衡,那么您应该能够使用正常的近似值,因为您已经超过100每场比赛的数据点。确定观察到的结果与预测均值的标准偏差有多极端。

由于您将针对每个可能的匹配应用此测试,因此如果您对单个测试使用典型的显着性阈值,您会期望更多的误报。因此,与其要求结果在0.05至少其中之一的水平6测试,您可能需要0.05/60.008或大约223在任一方向上与平均值的标准差,以拒绝原假设。

如果您拒绝原假设,这并不一定意味着 A 队比 B 队有优势。也可能是评分公式失败,这可能发生在不平衡的比赛中。如果您有足够的数据,您可以尝试比较评分相似的玩家,您可以期望评分公式更准确。