我在测试期间被问到这个问题,但无法弄清楚答案:
- 您有一组与时间相关的曲线,您想将其用作监督学习模型的输入。曲线可以是时间变化度量的每日或每小时观察,从到测量。每条单独的曲线对应于训练数据集中的一个示例。如何将曲线编码为模型的一个特征或一组特征?
不同的曲线看起来像:
提到的例子是收益率曲线,但它表明问题是关于任何一组随时间变化的曲线,只要它们都在相同的时间长度上。据推测,曲线的采样率是有规律的,但足够高,以至于使用离散样本作为输入向量是行不通的。
监督学习模型的目的并不具体:它可能是预测、回归或某种逻辑回归。主要思想是如何对曲线数据进行特征工程,
我的回答是:
选择一个足够高阶 n 的多项式,使得中的任何一个都可以合理地近似为多项式然后使用作为我的特征。
或者,将每条曲线视为一个时间序列,并使用 ACF、PACF、季节性指数和趋势斜率的值作为我们模型的输入。
我得到的回应是:两者都没有,你需要使用主成分分析。但没有给出进一步的解释。
我的问题:
我建议的方法有什么问题?
主成分分析究竟如何将我们的曲线转化为特征?PCA 不会为我们旋转曲线吗?