我正在使用tensorflow 的 DNNRegressor对多元回归问题进行建模。我想从分类和连续特征的混合包中形成一个最佳特征子集。最好的方法是什么?我希望这种方法独立于模型的原因是因为我在 tensorflow 的直接上下文中找不到太多关于特征选择/评估的信息。
选择独立于正在使用的模型的特征的最佳方法是什么?
数据挖掘
机器学习
张量流
回归
特征选择
特征提取
2022-02-21 06:24:22
1个回答
没有最好的方法,但如果有,Tensorflow 肯定不会是这样。我能想到三种方法,在某些情况下,每种方法都比其他方法更糟糕(没有免费的午餐):
- 测量变量与输出变量的相关性,取相关性最高的变量。这是一个相当差的方法,因为它考虑了线性相关,并且这不是一个很好的依赖性度量。取而代之的是测量输出变量与所有变量之间的距离相关性,尽管计算量更大,但选择距离相关性最高的特征。
- 使用 L1 惩罚 (Lasso) 拟合线性模型。Lasso 会自动为您选择变量,将非重要变量的权重设置为 0。具有非零权重的变量是您可以选择的变量。
- 拟合随机森林或梯度提升,并取特征重要性最高的变量。这在实践中对我来说非常有效。
我希望这有帮助。
其它你可能感兴趣的问题