Mahout中LogLikehood生成的相似数解读

数据挖掘 apache-mahout 推荐系统
2022-02-19 04:07:04

我有一个非常基本的问题,我希望有人能帮助我。我不是数学家,而且我对 mahout 还很陌生,所以我正在寻找一个穷人的解释。

这是一个典型的订单推荐系统。

我有一个包含大约 699,445 个订单的数据库。这些订单有“购买”的物品。

我运行了以下 mahout 命令:

mahout itemsimilarity --input /mnt/p1.csv --output ./output --similarityClassname SIMILARITY_LOGLIKELIHOOD --booleanData TRUE --threshold 0.9

我决定抽查结果。

我从输出文件中取出以下行:

58331   120216  0.9705375406679205

在我的输入文件中:

1540 orders  have product 58331
35 orders have product 120216
10 orders have both (58331 and 120216)

放入 Ted Dunning 术语

k_11 = 10   b_12 = 25
k_21 = 1531 k_22= 697889

对数似然算法生成的58331和120216之间的相似度数为0.9705375406679205。

1)这是什么意思?

2) 当有人订购 120216 时,我应该推荐 58331 吗?当有人订购58331时,我应该推荐120216吗?

3) 如何计算 LLR 公式中使用的熵?

多谢

0个回答
没有发现任何回复~