我正在开发一个非常基本的图书推荐系统。我想知道在查找余弦相似度时如何处理用户未评分的字段,我们应该忽略它们并仅使用评分字段进行计算,还是应该将它们标记为 0。
我正在关注的书说要排除这些字段,因为它会在欧几里得和皮尔逊相关的情况下给出错误的解释,但在余弦相似性的情况下,它将所有未评级的字段设为 0。
有人可以解释为什么需要将非评级字段设置为 0 仅用于余弦而不是其他字段,或者是否有不同的方法来做到这一点。(我知道在 Euclidean 和 Pearson 中设置字段 0 会如何影响输出,但不确定余弦)