新功能的加入能提升多少性能?

人工智能 机器学习 深度学习 优化 特征选择
2021-11-11 08:37:40

在优化过程中,新特征的加入能提高模型的性能多少?

假设我总共有 10 个功能。假设我只使用 3 个特性开始优化过程。

添加剩下的 7 个可以提高模型的性能(您可以假设,这可能已经相当高了)?

2个回答

这取决于使用的网络以及馈送机制,但让我们举个例子;

使用 LSTM 时,除了时间序列数据(来自特征)之外,还提供时间数据(作为整数序列)可以显着提高网络的性能。

[X0,X1, ...][[X0,t0],[X1,t1],……]

如果你去寻找kaggle比赛获胜者的笔记本,他们也会根据特色数据创建额外的功能。

让我们假设这三个特征的性能已经相当高,以便您可以高可靠性地预测这三个特征。如果您想预测额外的特征,增加特征的数量才有意义!

与 3 个特征的优化相比,10 个特征的优化会收敛得更慢。

假设我总共有 10 个功能。假设我只使用 3 个特性开始优化过程。添加剩下的 7 个可以提高模型的性能(您可以假设,这可能已经相当高了)。

答案可能是否定的。

  • 当分成三个和七个特征组时,收敛到基本事实(用于指导优化过程的形式化目标)的准确性和可靠性可能比保留为十个组时更好或更差。
  • 除非在极少数情况下,结果不会相同。相同结果的可能性是如此之低,它可能永远不会在下个世纪发生在世界上,除非条件只是为了使其发生而安排的。

那么为什么可能方法对结果的维度进行分组并收敛于轴组,然后是另一个,然后是另一个,然后又回到第一个,迭代直到达到收敛目标?这种方法用于减少用于达到最优的时间和计算资源。随着问题复杂性的增加,以这种方式使用分组更为普遍。