机器算法验证 - 非参数回归的最佳特征选择方法 - 吾爱随笔录

非参数回归的最佳特征选择方法

机器算法验证 r 机器学习非参数特征选择

2022-03-26 23:51:18

这里有一个新手问题。我目前正在使用 R 中的 np 包执行非参数回归。我有 7 个特征，并使用蛮力方法确定了最好的 3 个。但是，很快我将拥有超过 7 个特征！

我的问题是当前非参数回归特征选择的最佳方法是什么。如果有任何包实现这些方法。谢谢你。

2个回答

除非识别最相关的变量是分析的关键目标，否则通常最好不要进行任何特征选择并使用正则化来防止过度拟合。特征选择是一个棘手的过程，由于存在许多自由度，因此很容易过度拟合特征选择标准。LASSO 和弹性网络是一个很好的折衷方案，通过正则化而不是通过直接特征选择来实现稀疏性，因此它们不太容易出现这种特定形式的过度拟合。

Lasso确实是个好东西。简单的事情，比如从无开始，然后按照“有用性”（通过交叉验证）逐一添加它们在实践中也很有效。这有时称为分阶段前馈选择。

请注意，子集选择问题完全独立于分类/回归的类型。只是非参数方法可能很慢，因此需要更智能的选择方法。

T. Hastie 的《统计学习的要素》一书给出了很好的概述。

其它你可能感兴趣的问题

上一篇如何解释降维/多维缩放的结果？下一篇估计随时间的变化