数据科学新手,我正在从事体育分析方面的个人项目。我有每个年/季的一个数据集形式的数据。
每个数据集都有球队的胜负,以及各种进攻和防守数据。这些将按pandas.DataFrames团队名称进行索引。
我的目标是根据这些数据预测每年的输赢,然后创建一个更通用的模型来使用前几年的所有数据预测下个赛季。
我很难决定如何最好地组合数据。我认为将所有数据集合并为 1 并为前一年、前 2 年等的每个统计数据设置变量是非常低效的。通常如何处理这种类型的顺序数据?
数据科学新手,我正在从事体育分析方面的个人项目。我有每个年/季的一个数据集形式的数据。
每个数据集都有球队的胜负,以及各种进攻和防守数据。这些将按pandas.DataFrames团队名称进行索引。
我的目标是根据这些数据预测每年的输赢,然后创建一个更通用的模型来使用前几年的所有数据预测下个赛季。
我很难决定如何最好地组合数据。我认为将所有数据集合并为 1 并为前一年、前 2 年等的每个统计数据设置变量是非常低效的。通常如何处理这种类型的顺序数据?
通常,要执行机器学习,所有数据都需要位于单个数据帧中。团队名称,更好的是团队 id,应该是主键。然后每年的建模需要选择相关的列(例如,wins_year_1、loses_year_1、...)。最后,通用模型将选择所有列。
最佳做法是在建模之前转换所有数据。这避免了对某些可能导致建模错误的数据的转换错误。
Pandas 通过merge命令支持这种类型的组合。
通常,此数据不称为顺序数据。顺序数据意味着状态的概念。状态随时间改变值。在大多数运动项目中,最近的表现并不是一支球队下一场比赛有多大可能的有力指标。这通常被称为热手谬误。因此,团队当前的“赢/输”状态并不是建模中的强项。