我有连续类的数据,我正在寻找减少属性数量的好方法。现在我正在使用基于相关性的过滤器、随机森林和 Gram–Schmidt 算法。
我想要实现的是回答哪些属性比其他属性更重要/与类属性相关。
通过使用我之前提到的方法,我可以达到这个目标,但是还有其他值得关注的好算法吗?
我有连续类的数据,我正在寻找减少属性数量的好方法。现在我正在使用基于相关性的过滤器、随机森林和 Gram–Schmidt 算法。
我想要实现的是回答哪些属性比其他属性更重要/与类属性相关。
通过使用我之前提到的方法,我可以达到这个目标,但是还有其他值得关注的好算法吗?
我的心将永远与 RF 在一起,但您仍然可以看看 Rough Sets。尤其是 LERS 在大规模干扰数据的情况下效果很好。
您也可以尝试使用从其他分类器获得的重要性,例如 SVM 或随机朴素贝叶斯。
机器学习和统计学习的任务视图是此类问题的一个很好的起点。
带有 L1 惩罚项的正则化回归对我来说效果很好(参见 LASSO 和 LARS)。
我在集成特征选择过程中取得了很好的效果。对于实现您可以查看 Java-ML 库:http: //java-ml.sourceforge.net/
有关参考,请参见此处的示例:http ://www.springerlink.com/content/b00625100k51w7kn/
我相信这个程序在 R 中也很容易获得。