卡方与互信息

机器算法验证 分类 卡方检验 特征选择 互信息
2022-03-18 01:31:16

卡方特征选择是否优于基于互信息的特征选择机制?

2个回答

它们是相关的,所以我不怀疑会有很大的不同(因此,如果更容易计算,请使用互信息)。

我还没有看到正式的论据,但我的逻辑是:

  • g-test是互信息的衍生(G,cfr.wiki 链接)G=2NMI(r,c)
  • 对于合理大小的样本,卡方得出与 g 检验相同的结论

因此,对于合理大小的样本,卡方和 MI 导致或多或少相同的结果。在其他情况下,它将确定性地取决于数据集属性。

正如@ciri 回答的后续,在以下论文中也提出了相同的论点: Richter et al., 2018