神经网络特征选择的相关阈值

数据挖掘 机器学习
2022-02-16 10:53:19

我正在尝试在检查数据的输入和输出之间进行相关性分析,以了解要包含哪些输入变量。考虑一个变量有资格成为我的神经网络的输入,相关值的阈值是多少?

1个回答

鉴于神经网络的非线性,我认为相关分析不是估计变量重要性的好方法。例如,假设您有 2 个输入变量 -x1x2- 并且以下条件成立:

  • cor(x2, y) = 1如果x1 = 1
  • cor(x2, y) = 0除此以外
  • x1 = 1在 10% 的情况下

也就是说,x2是 的一个很好的预测器y,但仅考虑到x1 = 1,这仅在 10% 的数据中是这种情况。分别考虑 和 的相关性x1不会x2暴露这种依赖关系,您很可能会丢弃这两个变量。

但是,还有其他方法可以执行特征选择。最简单的方法是使用所有可能的变量集训练模型并检查最佳子集。但是,这对于许多变量来说效率很低,但是存在很多改进它的方法。有关最佳子集选择的良好介绍,请参阅《统计学习简介》第 6.1 章。