数据挖掘 - 为什么在 YouTube 的 DNN 推荐器中使用 softmax - 吾爱随笔录

为什么在 YouTube 的 DNN 推荐器中使用 softmax

数据挖掘推荐系统

2021-10-15 18:12:02

我对YouTube 的 DNN 候选生成的 softmax 层感到困惑。用户可以与许多视频进行交互。Softmax 假设类是独占的。例如，logits = [[4.0, 4.0, 1.0]]，labels = [[1.0, 1.0, 0.0]]，sigmoid 交叉熵损失为 0.45，而 softmax 交叉熵损失为 1.43。

是不是因为在候选生成阶段，item的相对顺序并不重要？

1个回答

“是不是因为在候选生成阶段，item的相对顺序无关紧要？”

是的，这正是看起来正在发生的事情，尽管 youtube 似乎以非传统的方式使用 softmax。候选生成模型只是选择随后由排名模型排名的几百个候选视频。

我认为您引用的论文的第 3 节很好地解释了发生了什么：

“在服务时间，我们需要计算最可能的 N 个类别（视频），以便选择前 N 个呈现给用户......由于在服务时间不需要来自 softmax 输出层的校准似然度，因此评分问题减少了到可以使用通用库的点积空间中的最近邻搜索。”

据我所知，这种推荐器架构只对 youtube 这样的组织运营的规模有益，并且更多地与组织计算基础设施的实用性有关，而不是模型性能。我敢肯定，就 map@k 之类的东西而言，他们的模型性能与更“传统”的架构相比可以忽略不计。

编辑：发现同样的问题已经回答了比这里显示的更详细的问题。

其它你可能感兴趣的问题

上一篇我们可以在推荐系统中使用嵌入或潜在向量吗？下一篇该数据集是否正确分析？