非参数回归的最佳特征选择方法

机器算法验证 r 机器学习 非参数 特征选择
2022-03-26 23:51:18

这里有一个新手问题。我目前正在使用 R 中的 np 包执行非参数回归。我有 7 个特征,并使用蛮力方法确定了最好的 3 个。但是,很快我将拥有超过 7 个特征!

我的问题是当前非参数回归特征选择的最佳方法是什么。如果有任何包实现这些方法。谢谢你。

2个回答

除非识别最相关的变量是分析的关键目标,否则通常最好不要进行任何特征选择并使用正则化来防止过度拟合。特征选择是一个棘手的过程,由于存在许多自由度,因此很容易过度拟合特征选择标准。LASSO 和弹性网络是一个很好的折衷方案,通过正则化而不是通过直接特征选择来实现稀疏性,因此它们不太容易出现这种特定形式的过度拟合。

Lasso确实是个好东西。简单的事情,比如从无开始,然后按照“有用性”(通过交叉验证)逐一添加它们在实践中也很有效。这有时称为分阶段前馈选择。

请注意,子集选择问题完全独立于分类/回归的类型。只是非参数方法可能很慢,因此需要更智能的选择方法。

T. Hastie 的《统计学习的要素》一书给出了很好的概述。