数据挖掘 - 如何使用可变长度输入来训练回归模型？ - 吾爱随笔录

如何使用可变长度输入来训练回归模型？

数据挖掘 Python 时间序列回归 scikit-学习

2021-09-26 01:59:03

我正在预测一个值 $y \in \mathbb{R}$ 从值 $x_{n+1}$ ，在哪里 $n$ 是样本数（ $x_{i \in [1,n]}$ ) 用于训练。

每个训练样本 $x_{i}$ 是可变长度的时间序列。我如何设计特征来预测 $y$ 在充分利用样品的同时？

注意事项：

我正在使用 Python 和 Scikit-learn
时间序列的长度可以被认为是一个解释变量

谢谢你的帮助：）

2个回答

一种快速的方法是使用像tsfresh这样的库，它从您的时间序列中提取特征，例如最大值、峰值数、中值等。

通常，此类问题的深思熟虑的解决方案涉及领域知识，即专家的见解可以告诉您时间序列的哪些方面很重要，例如频繁变化、非常高的峰值、高原、局部模式等。这然后使用知识来导出临时特征提取器。

如果我的问题是正确的， $x_i$ 有不同的长度 $l$ 超过 $i\in[1,n]$ 作为您的训练数据。一种非常常见的方法是将每个训练样本和测试样本填充到相同的长度，或者使用固定长度的时间窗口对时间序列数据进行采样。至于这里，你可以垫所有 $x_i$ 到长度 $L$ 和 $L = max(l_i), i \in [1,2,...,n,n+1...]$ . 填充的值取决于您的数据，使用一些不应该出现在数据中的值来表示“填充”。

做出预测 $x_{n+1}$ ，您还可以填充或使用时间窗口来采样 $x_{n+1}$ 首先，然后使用您训练的模型进行预测。

我不知道您使用的是哪种模型以及为什么您的时间序列长度不同，我假设您已经对原始数据使用了二次抽样。对于 RNN、LSTM 等深度学习模型，您可以使用固定长度的时间序列数据，因为模型会随着时间的推移提取特征并且不需要子采样。

其它你可能感兴趣的问题

上一篇2vec 和 doc2vec 的区别下一篇使用 TensorFlow 模型进行预测