数据挖掘 - SVD 数据要求 - 吾爱随笔录

我对数据科学非常陌生，所以请放轻松。

我想将一个基于 SVD 的游戏推荐模型（使用 Surprise Python Lib）用于我正在从事的全栈项目，但在我开始之前，我想确保我拥有正确的数据。我使用他们的 API 从 Steam 上抓取了一堆数据，我有三个主要列：user_id、game_id 和 time_spent_playing（以分钟为单位）。我认为我可以通过计算每个人游戏时间的标准差来为游戏创建一个“分数”，所以如果他们花的时间比普通人多，他们的分数就会更高。这对于 SVD 模型是否足够？或者根据我拥有的数据，是否有更好的算法可以使用？

奖励问题：我考虑过的一种方法是让用户对他们最喜欢的游戏进行排名，并以此作为更好地了解他们的偏好的一种方式。对于最初的推荐模型，我想我可以根据上面描述的分数从训练数据中排列用户所玩的游戏，然后将其用作训练模型的分数。对此的任何想法也将是有用的。

编辑：计算 z 分数，而不是标准差