有哪些方法可以准备/预处理时间序列数据以将序列数据用作预测模型(分类或回归)中的预测变量?具体来说,有哪些方法可以考虑
- 从数据中获取最有用的预测信号?
- 降低序列的维数
作为一个具体的例子,我有 90 天的期末余额数据(支票账户中的存款金额)。我想使用该数据来预测帐户所有者是否会在接下来的 2 周内关闭它(我有一个指标表明这种情况是否会在系列结束后 2 周发生)。
添加:
在查看了回复后,我想我正在寻找常用技术的列表。
- 当然有 Matt Krause 所写的功能创建(每个客户余额系列在所有这些方法中都被单独处理):每天或每周系列值的差异和百分比变化之类的事情。有滑动窗口聚合,如每周平均值、最小值、最大值和标准变化。还有增加和减少的数量,余额变化的指标(绝对或一定大小的相对)。
- 我考虑过为每个系列拟合线性或多项式回归,并使用模型中的系数作为预测变量。
- 我想知道的其他事情是为每个平衡系列计算最大滞后数的自动相关性,并将这些值用作预测变量。
- 将时间序列聚类为相对较少的值,并使用聚类成员的指标作为预测变量(例如使用动态时间扭曲距离和层次聚类)。
还有其他人吗?
- 例如傅里叶变换在这里工作吗?我可能会发布一个关于它们的单独问题。