我必须预测具有大约 30 个特征和 50.000 个样本的多元时间序列中的下一步。我正在考虑使用 LSTM。使用 LSTM 时,通常推荐使用哪些技术来清理数据?
使用 LSTM 时将数据转换为平稳时间序列是否有意义?使用 PCA 时数据是否应该呈正态分布?
还有大量缺失的时间戳。估算/填充(通过前向填充或其他方式)大空白是否有意义,或者在这种情况下完全忽略丢失的数据是否更好?
我必须预测具有大约 30 个特征和 50.000 个样本的多元时间序列中的下一步。我正在考虑使用 LSTM。使用 LSTM 时,通常推荐使用哪些技术来清理数据?
使用 LSTM 时将数据转换为平稳时间序列是否有意义?使用 PCA 时数据是否应该呈正态分布?
还有大量缺失的时间戳。估算/填充(通过前向填充或其他方式)大空白是否有意义,或者在这种情况下完全忽略丢失的数据是否更好?
3个问题:
使用 LSTM 时将数据转换为平稳时间序列是否有意义? Always Stationarity 总是需要的属性,并且应该转换数据(阅读更多)
使用 PCA 时数据是否应该呈正态分布?否如果您使用一些矩阵分解技术, 则围绕 PCA 有多种假设。例如,如果使用 SVD,您应该确保您的矩阵是全范围的。
估算/填充(通过前向填充或其他方式)大空白是否有意义,或者在这种情况下完全忽略丢失的数据是否更好?如果某些功能缺少大量数据,则应将它们全部丢弃。不要试图推算它,你会添加虚假信息。