数据挖掘 - 特征选择的卡方分布 - 吾爱随笔录

数据挖掘机器学习神经网络特征选择

2022-03-02 15:09:57

在一篇关于 ML的论文中，我读到卡方分布用于减少特征数量。在那篇论文中，特征就是文字。那篇论文与情绪分析有关，所以我们有“正面”、“负面”和“中性”类别。

我真的不知道该怎么做。如果有任何论文或书籍或链接可以了解这一点，请告诉我。

1个回答

特征选择有不同的方法。一本很好的机器学习精通读物，回顾一下：

特征选择的卡方检验属于非负特征的单变量选择方法。在从这篇博文中拍摄的一张照片中，我最喜欢的卡方解释是：

正如您所看到scikit-learn的，使用 chi2（可能根据）实现scipy.stats.chisquare了 feature_selection ，如上述博客文章中非常简要地展示的那样。

如果您想要更全面的解释和详细说明测试如何根据 chi2 分布和 p 值等基于统计数据对特征进行排序，以及如何在 Python 中构建自己的 chi2 类进行特征选择，请参阅这篇精彩的文章。显然，可以在wikipedia中阅读有关 chi2 分发和测试的基础知识。

其它你可能感兴趣的问题