对某些特征进行导数或积分并将它们添加为机器学习中的新特征是个好主意吗?

数据挖掘 机器学习 数据集 特征选择 特征工程 数据分析
2022-03-02 23:21:40

我正在学习如何进行特征工程并在我的脑海中遇到一些想法,这就是为什么我想问我是否有一些具有某些特征的数据集,比如说 2 个特征,我有一个时间戳列,数据集是一个时间序列数据集,所以它们是单调的。计算导数或积分并将其添加为新特征是否有意义?

举个例子,假设我有速度和加速度作为特征,将 jerk(这是加速度的导数)和 snap(这是 jerk 的导数)添加为新特征是否有意义?也可能是速度的积分,它会给出我认为的位移?

目标是假设 2 个特征还不够,我们想产生更多特征,添加导数或积分作为新特征是否明智?或者这是一个坏主意?

我还想知道如果我这样做,根据时间戳的导数和积分之间的相关性与我推导的特征之间的相关性是否会很高,如果我在我的数据集中创建与其他特征相关的新特征是坏的还是好的

2个回答

是的 - 将导数或积分作为新特征添加到模型中会很有用。

特征之间的相关性对模型的预测能力没有影响。相关性会影响解释特征的独特贡献的能力。

在执行特征工程时,建议转换现有特征,而不是将现有特征的转换值添加到数据集中。因为,如果我们添加这些类型的数据元素,它们将彼此高度相关,并且会影响模型性能。如果您的功能较少且无法创建模型,请要求提供更多数据。