我对数据科学非常陌生,所以请放轻松。
我想将一个基于 SVD 的游戏推荐模型(使用 Surprise Python Lib)用于我正在从事的全栈项目,但在我开始之前,我想确保我拥有正确的数据。我使用他们的 API 从 Steam 上抓取了一堆数据,我有三个主要列:user_id、game_id 和 time_spent_playing(以分钟为单位)。我认为我可以通过计算每个人游戏时间的标准差来为游戏创建一个“分数”,所以如果他们花的时间比普通人多,他们的分数就会更高。这对于 SVD 模型是否足够?或者根据我拥有的数据,是否有更好的算法可以使用?
奖励问题:我考虑过的一种方法是让用户对他们最喜欢的游戏进行排名,并以此作为更好地了解他们的偏好的一种方式。对于最初的推荐模型,我想我可以根据上面描述的分数从训练数据中排列用户所玩的游戏,然后将其用作训练模型的分数。对此的任何想法也将是有用的。
编辑:计算 z 分数,而不是标准差