我正在尝试创建一个机器学习模型来预测即将到来的板球锦标赛的获胜者(锦标赛中所有比赛的获胜者)。我在这里有几个问题:
- 我可以使用哪些类型的输入数据进行训练?我不能使用诸如谁赢得了投球、球队在每局比赛中得分多少等信息,因为我不会将这些数据用于最终预测数据集
- 我应该看什么样的算法?预测应该是两支球队中的一支参加比赛。我如何告诉模型这个?或者我应该建立一个多类模型来预测所有可能的团队之一?
关于如何进一步进行的任何输入对我来说都非常有用,因为我之前从未研究过基于运动的数据/模型。
我正在尝试创建一个机器学习模型来预测即将到来的板球锦标赛的获胜者(锦标赛中所有比赛的获胜者)。我在这里有几个问题:
关于如何进一步进行的任何输入对我来说都非常有用,因为我之前从未研究过基于运动的数据/模型。
我先回答你的第二个问题!
让我们以 IPL 为例。为了预测哪支球队将赢得比赛/锦标赛,您需要建立一个多类分类模型。其输出可以是数据中提到的团队之一。例如,您可以有一个数据集,其中 2 个特征是参与的 2 个团队,模型将预测哪一个会获胜。您可以为此目的使用大量分类模型,此处提供了列表。该链接提供了所有可用的分类和回归算法。
现在对于您的第一个问题,是的,您是对的,因为您不能包含诸如哪支球队得分多少之类的数据,因为您在比赛前不会获得该信息,因此显而易见的步骤是包含之前可能可用的任何类型的数据来一场比赛。
您将需要参加比赛的特定球队的任何类型的数据。例如,对于 Chennai Superkings 与德里首都队的比赛,您需要两支球队过去的比赛数据。您需要从以前的 IPL 收集所有和任何类型的过去统计数据,其中一些可能是谁赢得了投球,谁先选择了击球/保龄球,球场条件,天气条件,天气露水是否存在,哪支球队有紫色帽/橙色帽架等。所有这些统计数据都可以在比赛开始前获得。
通常匹配预测(跨运动)强烈依赖于特征工程。使用了 3 种类型的功能:
哪些特征最重要是特定于运动类型的,例如在足球中“距离上次比赛的天数”非常重要,但在电子竞技中则不那么重要。第三组通常具有最高的预测值并且至关重要(除了专业投注提供商的赔率)。此外,基于文本的特征,例如基于社交媒体的特征,也可以具有很强的预测能力。
模型梯度提升决策树和神经网络是匹配预测最成功的模型之一。
我建议阅读一些相关论文,例如专门针对板球的论文: