数据挖掘 - 矩阵分解中的正则化项 - 吾爱随笔录

我正在尝试使用 MovieLens 数据集的潜在因子模型构建一个简单的推荐系统。从观察到的评分集中，我试图建立一个模型，将稀疏矩阵分解为N * K和K * M，其中 N 是用户数，M 是电影数，K 是维数在我试图学习的潜在空间中。我正在使用的损失函数：

L = \sum_{u, i} (x_{u}^{T} \cdot y_{i} + μ + a v g_{u} + a v g_{i} - r_{u i})^{2}

$L = \sum_{u, i}(\mathbf{x}_u^T \cdot \mathbf{y}_i + \mu + avg_u + avg_i - r_{ui})^2$

$r_{ui}$ 是用户给出的评分 $u$ 看电影 $i$ , $\mathbf{x}_u$ 是用户的潜在表示 $u$ , $\mathbf{y}_i$ 是电影的潜在表征 $i$ , $\mu$ 是全球平均评级， $avg_u$ 是用户给出的平均评分 $u$ 和 $avg_i$ 是给电影的平均评分 $i$ . 注意： $avg$ 这里的评级是根据与全球平均评级的平均偏差进行调整的。

如果我认为正则化项为

λ \sum_{u} | | x_{u} | |^{2} + λ \sum_{i} | | y_{i} | |^{2}

$\lambda\sum_{u}||\mathbf{x_u}||^2 + \lambda\sum_{i}||\mathbf{y_i}||^2$

模型将倾向于惩罚更常见的训练用户/电影，因此与长尾电影相比，流行电影倾向于使用这个正则化项受到更多惩罚。

考虑上述正则化项是否可以，或者是否有更好的方法来统一惩罚项目，而不管它们在训练数据中是否出现？