推荐用于多元时间序列预测的数据清洗技术?

数据挖掘 时间序列 lstm 数据清理
2022-02-11 15:56:33

我必须预测具有大约 30 个特征和 50.000 个样本的多元时间序列中的下一步。我正在考虑使用 LSTM。使用 LSTM 时,通常推荐使用哪些技术来清理数据?

使用 LSTM 时将数据转换为平稳时间序列是否有意义?使用 PCA 时数据是否应该呈正态分布?

还有大量缺失的时间戳。估算/填充(通过前向填充或其他方式)大空白是否有意义,或者在这种情况下完全忽略丢失的数据是否更好?

2个回答

3个问题:

  1. 使用 LSTM 时将数据转换为平稳时间序列是否有意义? Always Stationarity 总是需要的属性,并且应该转换数据(阅读更多)

  2. 使用 PCA 时数据是否应该呈正态分布?如果您使用一些矩阵分解技术, 则围绕 PCA 有多种假设。例如,如果使用 SVD,您应该确保您的矩阵是全范围的。

  3. 估算/填充(通过前向填充或其他方式)大空白是否有意义,或者在这种情况下完全忽略丢失的数据是否更好?如果某些功能缺少大量数据,则应将它们全部丢弃。不要试图推算它,你会添加虚假信息。

  1. 没有把握。我认为 LSTM 不需要像传统统计方法那样的平稳性假设。我试图用它来预测具有复杂时间和空间相关性的数据集,并且效果很好。但是您应该考虑对数据进行归一化,例如 MaxMinNormalization。不确定差异是否会改善结果。
  2. 不知道你在问什么。您想使用 PCA 进行预处理吗?PCA 本身不需要正态分布假设。但我认为使用 PCA 进行预测并不是一个好主意。
  3. 不。如果您有一些空白,您可以像许多论文一样估算它们。但是,如果缺少大量时间戳,请将它们删除。