数据挖掘 - 我可以总结用户收藏的特征向量吗？ - 吾爱随笔录

我想找到与用户收藏中已有的项目相似的项目。每个项目都有属性，所以我创建了特征向量，其中向量的每个元素都代表一个属性，并且要么 $0$ 或者 $1$ （如果一个项目具有该属性）。

对于用户集合，我总结了所有向量，创建了一个向量，然后我用它来计算与其他项目的相似性。

这是一个正确的方法还是我应该像其他人一样制作这个“用户向量”，二进制？还是更容易计算 $n \times m$ （即用户项目和新项目）相似之处？

新项目集将包括 $\sim1000$ 项目，而用户集合往往是 $<1000$ . 作为相似函数，我使用了余弦距离，但也想尝试皮尔逊系数。