使用 R 的文本的逐点互信息

机器算法验证 r 文本挖掘 互信息
2022-03-27 03:32:52

我有文本的键值对。这些值可以是多个单词(n-gram)。例如,

A     abcd
A     efgh
B     abcd
C     wxyz
C     mnop

我想计算这些对的逐点互信息R中有一个函数可以做到这一点吗?否则,我该怎么办?

谢谢

1个回答

R中有许多用于估计互信息或熵的函数,例如熵包。进入

install.packages("entropy")

在 R 提示符处。然后,您可以使用该属性 pmi(x;y)=h(x)+h(y)h(xy) 计算逐点互信息。您需要首先获得两个随机变量的频率估计值。