数据挖掘 - Mahout中LogLikehood生成的相似数解读 - 吾爱随笔录

我有一个非常基本的问题，我希望有人能帮助我。我不是数学家，而且我对 mahout 还很陌生，所以我正在寻找一个穷人的解释。

这是一个典型的订单推荐系统。

我有一个包含大约 699,445 个订单的数据库。这些订单有“购买”的物品。

我运行了以下 mahout 命令：

mahout itemsimilarity --input /mnt/p1.csv --output ./output --similarityClassname SIMILARITY_LOGLIKELIHOOD --booleanData TRUE --threshold 0.9

我决定抽查结果。

我从输出文件中取出以下行：

58331   120216  0.9705375406679205

在我的输入文件中：

1540 orders  have product 58331
35 orders have product 120216
10 orders have both (58331 and 120216)

放入 Ted Dunning 术语

k_11 = 10   b_12 = 25
k_21 = 1531 k_22= 697889

对数似然算法生成的58331和120216之间的相似度数为0.9705375406679205。

1）这是什么意思？

2) 当有人订购 120216 时，我应该推荐 58331 吗？当有人订购58331时，我应该推荐120216吗？

3) 如何计算 LLR 公式中使用的熵？

多谢