这里有一个新手问题。我目前正在使用 R 中的 np 包执行非参数回归。我有 7 个特征,并使用蛮力方法确定了最好的 3 个。但是,很快我将拥有超过 7 个特征!
我的问题是当前非参数回归特征选择的最佳方法是什么。如果有任何包实现这些方法。谢谢你。
这里有一个新手问题。我目前正在使用 R 中的 np 包执行非参数回归。我有 7 个特征,并使用蛮力方法确定了最好的 3 个。但是,很快我将拥有超过 7 个特征!
我的问题是当前非参数回归特征选择的最佳方法是什么。如果有任何包实现这些方法。谢谢你。
除非识别最相关的变量是分析的关键目标,否则通常最好不要进行任何特征选择并使用正则化来防止过度拟合。特征选择是一个棘手的过程,由于存在许多自由度,因此很容易过度拟合特征选择标准。LASSO 和弹性网络是一个很好的折衷方案,通过正则化而不是通过直接特征选择来实现稀疏性,因此它们不太容易出现这种特定形式的过度拟合。
Lasso确实是个好东西。简单的事情,比如从无开始,然后按照“有用性”(通过交叉验证)逐一添加它们在实践中也很有效。这有时称为分阶段前馈选择。
请注意,子集选择问题完全独立于分类/回归的类型。只是非参数方法可能很慢,因此需要更智能的选择方法。
T. Hastie 的《统计学习的要素》一书给出了很好的概述。