我有一个非常基本的问题,我希望有人能帮助我。我不是数学家,而且我对 mahout 还很陌生,所以我正在寻找一个穷人的解释。
这是一个典型的订单推荐系统。
我有一个包含大约 699,445 个订单的数据库。这些订单有“购买”的物品。
我运行了以下 mahout 命令:
mahout itemsimilarity --input /mnt/p1.csv --output ./output --similarityClassname SIMILARITY_LOGLIKELIHOOD --booleanData TRUE --threshold 0.9
我决定抽查结果。
我从输出文件中取出以下行:
58331 120216 0.9705375406679205
在我的输入文件中:
1540 orders have product 58331
35 orders have product 120216
10 orders have both (58331 and 120216)
放入 Ted Dunning 术语
k_11 = 10 b_12 = 25
k_21 = 1531 k_22= 697889
对数似然算法生成的58331和120216之间的相似度数为0.9705375406679205。
1)这是什么意思?
2) 当有人订购 120216 时,我应该推荐 58331 吗?当有人订购58331时,我应该推荐120216吗?
3) 如何计算 LLR 公式中使用的熵?
多谢