我正在尝试构建一个基于 SVD 的推荐系统。根据我的理解,训练数据应该只包含至少购买m个商品的用户和n 个唯一用户购买的商品。否则,如果我使用所有用户和物品(包括低频用户和物品),我认为训练数据会很嘈杂。
然而,问题来了:为了构建 SVD 的训练数据,我首先从数据库中检索所有购买了至少m件商品的用户。但是有一些被这些用户购买的物品至少没有被n 个用户购买。但是在进一步从训练数据中过滤掉这些低频项后,剩下的一些用户将没有包含m个项目的项目集,因为有些项目被删除了。
我觉得我没有走在正确的轨道上。我应该如何为 SVD 构建训练数据?