数据挖掘 - 如何处理顺序数据的多个数据集 - 吾爱随笔录 - 问答

如何处理顺序数据的多个数据集

数据挖掘机器学习数据集熊猫

2022-02-28 11:41:36

数据科学新手，我正在从事体育分析方面的个人项目。我有每个年/季的一个数据集形式的数据。

每个数据集都有球队的胜负，以及各种进攻和防守数据。这些将按pandas.DataFrames团队名称进行索引。

我的目标是根据这些数据预测每年的输赢，然后创建一个更通用的模型来使用前几年的所有数据预测下个赛季。

我很难决定如何最好地组合数据。我认为将所有数据集合并为 1 并为前一年、前 2 年等的每个统计数据设置变量是非常低效的。通常如何处理这种类型的顺序数据？

（为澄清起见，我计划通过 xgboost 包使用梯度提升，并通过 Keras 包使用LSTM）

1个回答

通常，要执行机器学习，所有数据都需要位于单个数据帧中。团队名称，更好的是团队 id，应该是主键。然后每年的建模需要选择相关的列（例如，wins_year_1、loses_year_1、...）。最后，通用模型将选择所有列。

最佳做法是在建模之前转换所有数据。这避免了对某些可能导致建模错误的数据的转换错误。

Pandas 通过merge命令支持这种类型的组合。

通常，此数据不称为顺序数据。顺序数据意味着状态的概念。状态随时间改变值。在大多数运动项目中，最近的表现并不是一支球队下一场比赛有多大可能的有力指标。这通常被称为热手谬误。因此，团队当前的“赢/输”状态并不是建模中的强项。

其它你可能感兴趣的问题

上一篇无需酸洗的 Python 模型持久化下一篇时间序列分析与线性回归