有人会如何使用曲线作为监督学习模型的输入?

机器算法验证 回归 分类 监督学习 特征工程
2022-04-03 00:59:00

我在测试期间被问到这个问题,但无法弄清楚答案:

  • 您有一组与时间相关的曲线,您想将其用作监督学习模型的输入。曲线可以是时间变化度量的每日或每小时观察,从测量。每条单独的曲线对应于训练数据集中的一个示例。如何将曲线编码为模型的一个特征或一组特征?Xi(t)t=0t=TXi(t)

不同的曲线看起来像:

在此处输入图像描述

提到的例子是收益率曲线,但它表明问题是关于任何一组随时间变化的曲线,只要它们都在相同的时间长度上。据推测,曲线的采样率是有规律的,但足够高,以至于使用离散样本作为输入向量是行不通的。T

监督学习模型的目的并不具体:它可能是预测、回归或某种逻辑回归。主要思想是如何对曲线数据进行特征工程,

我的回答是:

  • 选择一个足够高阶 n 的多项式,使得中的任何一个都可以合理地近似为多项式然后使用作为我的特征。Xi(t)X^i=xi,0+xi,1t+xi,2t2++xi,ntnxi,0,xi,1,xi,2,,xi,nn+1

  • 或者,将每条曲线视为一个时间序列,并使用 ACF、PACF、季节性指数和趋势斜率的值作为我们模型的输入。

我得到的回应是:两者都没有,你需要使用主成分分析。但没有给出进一步的解释。

我的问题:

我建议的方法有什么问题?

主成分分析究竟如何将我们的曲线转化为特征?PCA 不会为我们旋转曲线吗?

1个回答

我的反应是愚蠢的,我的哀悼。你的建议并非没有道理。它可能行不通,但你怎么能提前知道呢?你的两个选择都是很好的起点。

虽然简单的多项式方法在字面意义上可能不是一个好主意,但从原理上讲,它与 Nelson-Siegel 曲线并没有太大区别,例如参见广泛使用的Diebold Li 方法Nelson-Siegel 参数化基于正交拉盖尔多项式因此,在我看来,您的回答并没有偏离标准。

将收益率曲线视为时间序列在原则上也没有错。有一堆论文,人们沿着这条线做了一些事情,例如这个arxiv 论文事实上,他们将性能与 PCA 进行比较。

如果您想减少输入数量,PCA 可能是最好的方法。您获得前三个组件分数,并将它们用作您的输入,而不是原始收益率曲线。前三个 PC 通常覆盖 90% 以上的方差。但是,我不会说这是普遍的最佳方法。例如,如果您正在对市场进行建模,某些实体可能对 10 年美国国债利率特别敏感,那么将其作为一个独特的输入等可能是件好事。