我是一个超级足球迷,对机器学习也很感兴趣。作为我的 ML 课程的一个项目,我正在尝试建立一个模型,根据主队和客队的名字来预测主队获胜的机会。(我查询我的数据集,并根据这两支球队之前的比赛创建数据点)
我有所有球队几个赛季的数据,但是我有以下问题需要一些建议。EPL(英格兰超级联赛)有 20 支球队在主场和客场比赛(一个赛季总共 380 场比赛)。因此,每个赛季,任何两支球队只交手两次。
我有过去 10 多年的数据,导致两个团队有 2*10=20 个数据点。但是我不想超过 3 年,因为我相信球队会随着时间的推移发生相当大的变化(曼城,利物浦),这只会给系统带来更多的错误。
所以这导致每对团队只有大约 6-8 个数据点。但是,对于每个数据点,我确实有几个特征(最多 20 多个),例如两支球队的全时进球、半场进球、传球、射门、黄色、红色等,因此我可以包括最近形式、最近主场表格,最近的客场表格等。
但是,仅使用 6-8 个数据点进行训练的想法对我来说似乎是不正确的。关于如何解决这个问题的任何想法?(如果这首先是一个问题)