我可以总结用户收藏的特征向量吗?

数据挖掘 推荐系统 相似 余弦距离 向量空间模型
2022-03-04 04:12:37

我想找到与用户收藏中已有的项目相似的项目。每个项目都有属性,所以我创建了特征向量,其中向量的每个元素都代表一个属性,并且要么0或者1(如果一个项目具有该属性)。

对于用户集合,我总结了所有向量,创建了一个向量,然后我用它来计算与其他项目的相似性。

这是一个正确的方法还是我应该像其他人一样制作这个“用户向量”,二进制?还是更容易计算n×(即用户项目和新项目)相似之处?

新项目集将包括1000项目,而用户集合往往是<1000. 作为相似函数,我使用了余弦距离,但也想尝试皮尔逊系数。

1个回答

您可以使用布尔值的总和。这将很快并给出相似性的一般概念。

一个更有用的度量可能是汉明距离,即两个向量之间匹配布尔值的总和。