什么是“logit 概率”?

人工智能 神经网络 激活函数
2021-10-28 10:26:37

DeepMind 的论文“在没有人类知识的情况下掌握围棋游戏”在其“神经网络架构”的“方法”部分中指出,AlphaGo Zero 的策略头的输出层是“一个输出大小为 19 的向量的全连接线性层” 2 + 1 = 362,对应于所有交叉口和通过移动的logit概率”(强调我的)。我在神经网络方面是自学过的,在这篇论文之前我从未听说过“logit 概率”。我无法通过搜索和阅读来弄清楚它的含义。事实上,logit 上的维基百科页面似乎使该术语自相矛盾。可以使用以下等式将 logit 转换为概率p=elel+1,并且可以使用以下等式将概率转换为logitl=lnp1p,所以两者不可能相同。Leela Zero的神经网络配置应该具有与论文中描述的架构几乎相同的架构,似乎表明上面引用中描述的全连接层需要跟随一个 softmax 层来生成概率(尽管我对 Caffe 完全陌生,可能无法正确解释“p_ip1”和“loss_move”的定义)。AlphaGo 零备忘单其他方面非常有用,它只是呼应了“logit 概率”这个短语,就好像这是一个众所周知的概念。我看过几个自己引用“logits”的网站(比如这个),但这不足以让我满意,“logit 概率”必须是指“通过 softmax 函数传递 logit 向量生成的概率”。

什么是 logit 概率?我可以阅读哪些资料来帮助我更好地理解这个概念?

1个回答

事实上,除了那篇特定的论文之外,我还没有看到在许多地方使用过“logit 概率”这个术语。因此,我无法真正评论他们为什么使用该术语/它来自何处/是否有其他人使用它,但我可以确认他们所说的“logit 概率”的含义基本上与更常见的含义相同就像“logits”一样:它们是原始的、无界的分数,我们通常将向量推入 softmax 函数以生成离散的概率分布,该分布很好地加起来1.

此定义适合您从 wikipedia 链接的定义(尽管该链接仅涵盖二进制情况,而 AlphaGo Zero 将具有多项 logits,因为它有两个以上的策略头输出)。

在 AlphaGo Zero 论文中,所描述的架构有一个“线性输出层”(即没有输出的激活函数,或者作为输出激活函数的恒等函数,或者你喜欢描述它)用于策略头。这意味着这些输出基本上是无界的,它们可以是任何实数。我们确信这些输出不能直接解释为概率,即使这在论文中没有明确说明。

通过称它们为 logits(或我不知道的原因为 logit 概率),它们实质上是在暗示这些输出仍将由 softmax 进行后处理,以将它们转换为可以解释为动作上的离散概率分布的向量,即使他们没有明确地将 softmax 层描述为网络的一部分。

确实有可能在 Leela Zero 中,他们决定明确地将 softmax 操作作为神经网络架构的一部分。从数学上讲,他们最终会做同样的事情……AlphaGo Zero 论文暗示(通过使用“logit”这个词)softmax 被用作“后处理”步骤,并且在 Leela Zero 中,他们明确地将其作为神经网络。

这里有更多的来源,用于推理“logit”这个词的使用基本上意味着softmax的使用,尽管它们确实不包括“logit概率”这个词: