机器算法验证 - 如何计算互信息分数的阈值水平？ - 吾爱随笔录

机器算法验证独立互信息

2022-04-10 09:13:39

我对统计学的世界很陌生，并且刚刚完成了我第一次（成功）尝试计算互信息分数的工作。

现在假设对于 AB、BC、CD 和 DE 列对，我的互信息分数为 0.1111、0.9999、1.23 和 1.5。

我需要使用这些值来确定哪些列对 AB、BC、CD 和 DE 相互依赖，哪些不依赖。

为此，我需要计算一个阈值限制。我假设如果阈值水平为 X，所有大于 X 的 MI 分数表示两列相关，而分数 < X 表示两列不相关。

有人可以指出一个合适的阈值计算过程吗？

2个回答

您可以尝试打乱您的数据以使其独立，并使用相同的过程来计算 MI 分数。这将为原假设提供一个替代项，如果您对 p 值没问题，也许您可以通过选择 0.05 之类的 p 值来选择阈值。

计算归一化互信息会将值放入更有意义的术语中（NMI = 0，两个变量不包含彼此的信息，NMI = 1，两个变量包含彼此的完美信息）。

要确定一个阈值，我认为这实际上取决于您在说明两个节点之间的依赖/独立之后打算做什么。NMI = 0.2 可能看起来很低，但这意味着这两个变量仍然包含一些关于彼此的信息，因此您的“阈值”应该取决于您的具体目标。

其它你可能感兴趣的问题