特征选择的卡方分布

数据挖掘 机器学习 神经网络 特征选择
2022-03-02 15:09:57

一篇关于 ML的论文中,我读到卡方分布用于减少特征数量。在那篇论文中,特征就是文字。那篇论文与情绪分析有关,所以我们有“正面”、“负面”和“中性”类别。

  • 在这种情况下如何计算卡方分布?

  • 在 Python 中,scipy.stats.chisquare它给出了 chi_square 值和 p_value。那么我们如何处理这两条信息呢?

  • 例如,将“好”这个词作为特征怎么办?

  • 如何计算卡方分布,以及如何处理?

  • 从特征集中排除某些特征是什么意思,因为在那篇论文中提到我们用顶卡方取 n 个特征。

我真的不知道该怎么做。如果有任何论文或书籍或链接可以了解这一点,请告诉我。

1个回答

特征选择有不同的方法。一本很好的机器学习精通读物回顾一下:

  • 单变量选择。
  • 递归特征消除。
  • 主成分分析。
  • 特征重要性。

特征选择的卡方检验属于非负特征的单变量选择方法。在从这篇博文中拍摄的一张照片中,我最喜欢的卡方解释是: 在此处输入图像描述

正如您所看到scikit-learn,使用 chi2(可能根据)实现scipy.stats.chisquare了 feature_selection ,如上述博客文章中非常简要地展示的那样。

如果您想要更全面的解释和详细说明测试如何根据 chi2 分布和 p 值等基于统计数据对特征进行排序,以及如何在 Python 中构建自己的 chi2 类进行特征选择,请参阅这篇精彩的文章显然,可以在wikipedia中阅读有关 chi2 分发和测试的基础知识