我想找到与用户收藏中已有的项目相似的项目。每个项目都有属性,所以我创建了特征向量,其中向量的每个元素都代表一个属性,并且要么或者(如果一个项目具有该属性)。
对于用户集合,我总结了所有向量,创建了一个向量,然后我用它来计算与其他项目的相似性。
这是一个正确的方法还是我应该像其他人一样制作这个“用户向量”,二进制?还是更容易计算(即用户项目和新项目)相似之处?
新项目集将包括项目,而用户集合往往是. 作为相似函数,我使用了余弦距离,但也想尝试皮尔逊系数。
我想找到与用户收藏中已有的项目相似的项目。每个项目都有属性,所以我创建了特征向量,其中向量的每个元素都代表一个属性,并且要么或者(如果一个项目具有该属性)。
对于用户集合,我总结了所有向量,创建了一个向量,然后我用它来计算与其他项目的相似性。
这是一个正确的方法还是我应该像其他人一样制作这个“用户向量”,二进制?还是更容易计算(即用户项目和新项目)相似之处?
新项目集将包括项目,而用户集合往往是. 作为相似函数,我使用了余弦距离,但也想尝试皮尔逊系数。
您可以使用布尔值的总和。这将很快并给出相似性的一般概念。
一个更有用的度量可能是汉明距离,即两个向量之间匹配布尔值的总和。