我对统计学的世界很陌生,并且刚刚完成了我第一次(成功)尝试计算互信息分数的工作。
现在假设对于 AB、BC、CD 和 DE 列对,我的互信息分数为 0.1111、0.9999、1.23 和 1.5。
我需要使用这些值来确定哪些列对 AB、BC、CD 和 DE 相互依赖,哪些不依赖。
为此,我需要计算一个阈值限制。我假设如果阈值水平为 X,所有大于 X 的 MI 分数表示两列相关,而分数 < X 表示两列不相关。
有人可以指出一个合适的阈值计算过程吗?
我对统计学的世界很陌生,并且刚刚完成了我第一次(成功)尝试计算互信息分数的工作。
现在假设对于 AB、BC、CD 和 DE 列对,我的互信息分数为 0.1111、0.9999、1.23 和 1.5。
我需要使用这些值来确定哪些列对 AB、BC、CD 和 DE 相互依赖,哪些不依赖。
为此,我需要计算一个阈值限制。我假设如果阈值水平为 X,所有大于 X 的 MI 分数表示两列相关,而分数 < X 表示两列不相关。
有人可以指出一个合适的阈值计算过程吗?
您可以尝试打乱您的数据以使其独立,并使用相同的过程来计算 MI 分数。这将为原假设提供一个替代项,如果您对 p 值没问题,也许您可以通过选择 0.05 之类的 p 值来选择阈值。
计算归一化互信息会将值放入更有意义的术语中(NMI = 0,两个变量不包含彼此的信息,NMI = 1,两个变量包含彼此的完美信息)。
要确定一个阈值,我认为这实际上取决于您在说明两个节点之间的依赖/独立之后打算做什么。NMI = 0.2 可能看起来很低,但这意味着这两个变量仍然包含一些关于彼此的信息,因此您的“阈值”应该取决于您的具体目标。