预测足球:猜测哪个匹配模型将正确预测

数据挖掘 机器学习 预测建模
2021-09-30 18:00:12

我接受了一个项目来预测足球比赛的结果,但结果证明这是一项非常具有挑战性的任务。我尝试了不同的模型,但我的测试数据集的准确率只有 50-54%。一些模型的创建方式使得某个模型可以预测球队是否会赢、平或输一场比赛。同样的模型也可以预测该球队的对手是赢、平还是输。每个模型对每个团队的预测准确率约为 50%。我尝试的第二组模型结合了两支球队的数据,并预测了比赛属于哪个类别(主队获胜、客队获胜、平局)。在系统中,每天只给出 10 个匹配项进行预测。这意味着,如果我使用第二个模型预测 10 个匹配项,我就有机会正确预测 5 个。在这个项目中,我只需要在一天给出的 10 场比赛中正确预测 3 场比赛。是否有一个系统可以知道我的模型最有可能正确预测的 3 个匹配项?我只需要得到 3 个正确的预测,我通常会得到 5 个正确的预测,但我不知道如何选择我的 3 个最佳匹配。

注意:第一种模型使用大约 50 个特征进行预测,而第二种使用 101 个。我尝试过集成,它们仍然给我大约 50% 的准确度。我仍将建立一个系统来选择比赛,其中主队的预测与使用第一种模型的客队的预测不矛盾。

3个回答

这听起来像是一个有趣的项目。我最近从事了一项几乎案例研究。为了只得到 3 个最准确的预测,我想您可能想按事件概率(获胜、平局或松散)对正确预测的 5 场比赛进行排序,然后选择前三场比赛。我希望您的模型能够为您提供概率的事件。我希望这有帮助 :-)

听起来您可以使用回归模型来估计一个团队相对于另一个团队获胜/平局/输球的概率。基本上,对于任何结果(赢、平和输),您都需要:

P(A|B) = ...
P(B|A) = ...

这意味着:A 队与 B 队匹配的结果概率(反之亦然)。

估计可以这样表示:

P(A > B) = 0.75 % A wins
P(A = B) = 0.10 % A draws
P(A < B) = 0.15 % A loses

P(B > A) = 0.20 % B wins
P(B = A) = 0.10 % B draws
P(B > A) = 0.70 % B loses

我认为一个合乎逻辑的步骤是衡量对某个结果的偏见。这将代表您的算法的置信度。任何结果的概率越相似(即 P(B >/=/< A) = 0.33),它的置信度就越低。

模型是一个随机过程。马尔可夫链是要走的路。创建一个随机矩阵,其中状态可以是 A 团队 T ...获取所有可能的组合并使用过去的数据来获取初始获胜概率 ...然后使用 Xn= XiP^n 的美丽属性其中 Xn 是概率向量从现在开始的第 n 个阶段,Xi 是初始向量,P 是概率转移矩阵。