时间序列生成 - 多维时间序列数据

数据挖掘 机器学习 深度学习 时间序列 监督学习 生成模型
2022-02-20 20:43:15

免责声明:数学家们请不要因为我在这篇文章中使用一些术语而生我的气。我是一名工程师。:-)

背景: 所以我目前正在研究一个问题,我必须生成一个过程的时间序列序列,其中 n 个参与者在 2d 空间中移动。但我不知道这是否可能。某些机器学习模型 M 正在学习的过程。

顺便提一句!我从来没有使用过时间序列数据,但是在没有序列的情况下,我在图像和信号上训练模型方面有很好的经验,所以我一直在阅读它。

因此,首先尝试一些非常简单的事情,我从以下位置获取了一个足球运动员位置数据集:Here我正在尝试将其建模为一个监督学习问题,我尝试在时间戳 T 处预测 n 个玩家的位置,假设在时间戳 T-1 处。但我很快意识到这行不通,因为球员的位置也取决于球的位置和对方球员的位置。

无论如何,我的问题如下:- 1.我如何对数据集建模?它是否只是一个(Nx2xNo.Timestamps)之类的 3-d 张量数据集(N 对应于玩家。2 代表 x 位置和 y 位置。时间戳编号作为最后一个维度)?

  1. 我将时间序列生成问题建模为监督学习问题的方法是否正确?

  2. 我应该看哪些预处理步骤?另外我如何处理缺失值。

  3. 我放弃使用足球数据集的想法的原因:再次在这里,因为它只包括一支球队的位置。另一个团队没有佩戴传感器:-(。在阅读有关 ARIMA 模型的内容时,我阅读了一些关于外生变量也会影响过程的内容。

  4. 如果这一切都是可能的,我希望它是(因为不可能什么都不是!)我应该看什么模型?因为我最终必须在一个非常不同的数据集上解决这个问题......我过去有训练神经网络模型(如 CNN 和 ANN)的经验,并且对使用神经网络感到非常自在,理想情况下我很乐意在这里这样做。到目前为止,我的研究已将我指向 LSTMs RNNs 和 ARIMA 模型。

请指导我,因为我对时间序列分析很陌生。

1个回答

时间序列数据必须包含您的所有观察结果以及一些标准的时间效应(这里有点明显)。如果我想在某个模型上测试理论并需要一些数据集,那么参数就像时间戳 * 否。特征(包括玩家相对于源的位置)。一个二维张量就足够了。我不制作 3d 张量的原因是它会导致更复杂的情况,我必须将第 3 维(玩家人数 [N])与前 2 维关联起来进行预测。最好简化位置,并且在一行中我可以有多个标签,因为每个位置都对我的模型很重要。

时间序列生成通常属于连续预测,之前的数据被预测为观察值。我宁愿让它属于强化学习。是的,您可以考虑使用监督学习,但也可以尝试 RL 方法。

根据缺失值,我会说如果它们不超过 10-15% 的数据,则将它们删除。提到的百分比没有固定条。如果超过,请填写插值或滚动平均值(两者都让我受益)。剩余预处理取决于数据类型、规范化数据、删除异常值等。

是的,它会影响数据,但是您可以使用符号波的不同波动来生成数据以进行测试或使用任何其他函数来生成信号(首选 scipy)。

目前我正在为我的时间序列测试双向 lstm - CNN 组合,是的,ARIMA 很好,但做一点这个 expirmenet 不会受到伤害。我会说为时间序列选择 CNN-任何 RNN 组合。

希望这可以帮助。