在一篇关于 ML的论文中,我读到卡方分布用于减少特征数量。在那篇论文中,特征就是文字。那篇论文与情绪分析有关,所以我们有“正面”、“负面”和“中性”类别。
在这种情况下如何计算卡方分布?
在 Python 中,
scipy.stats.chisquare它给出了 chi_square 值和 p_value。那么我们如何处理这两条信息呢?例如,将“好”这个词作为特征怎么办?
如何计算卡方分布,以及如何处理?
从特征集中排除某些特征是什么意思,因为在那篇论文中提到我们用顶卡方取 n 个特征。
我真的不知道该怎么做。如果有任何论文或书籍或链接可以了解这一点,请告诉我。
