为什么统计学家不使用互信息来衡量关联?

机器算法验证 相关性 互信息
2022-02-04 00:02:09

我看过一些非统计学家的谈话,他们似乎使用互信息而不是回归(或等效/密切相关的统计测试)来重新发明相关性度量。

我认为统计学家不采用这种方法是有充分理由的。我外行的理解是熵/互信息的估计器往往是有问题的和不稳定的。我认为权力也因此存在问题:他们试图通过声称他们没有使用参数测试框架来解决这个问题。通常这种工作不会影响功率计算,甚至不会影响置信/可信区间。

但是,如果数据集非常大,那么慢收敛有什么大不了的吗?此外,有时这些方法似乎“有效”,因为这些关联已通过后续研究得到验证。对使用互信息作为关联度量的最佳批评是什么?为什么它没有广泛用于统计实践?

编辑:另外,有没有涵盖这些问题的好论文?

1个回答

我认为您应该区分分类(离散)数据和连续数据。

对于连续数据,Pearson 相关测量线性(单调)关系,秩相关测量单调关系。

另一方面,MI“检测”任何关系。这通常不是您感兴趣的和/或可能是噪音。特别是,您必须估计分布的密度。但由于它是连续的,您将首先创建一个直方图 [离散箱],然后计算 MI。但是由于 MI 允许任何关系,因此 MI 会随着您使用较小的 bin 而改变(即,您允许更多的摆动)。所以你可以看到 MI 的估计会非常不稳定,不允许你在估计等上放置任何置信区间。[如果你进行连续密度估计也是如此。]基本上在实际计算之前要估计的东西太多了心肌梗死。

另一方面,分类数据非常适合 MI 框架(参见 G-test),在 G-test 和卡方之间没有太多选择。