DeepMind 的论文“在没有人类知识的情况下掌握围棋游戏”在其“神经网络架构”的“方法”部分中指出,AlphaGo Zero 的策略头的输出层是“一个输出大小为 19 的向量的全连接线性层” 2 + 1 = 362,对应于所有交叉口和通过移动的logit概率”(强调我的)。我在神经网络方面是自学过的,在这篇论文之前我从未听说过“logit 概率”。我无法通过搜索和阅读来弄清楚它的含义。事实上,logit 上的维基百科页面似乎使该术语自相矛盾。可以使用以下等式将 logit 转换为概率,并且可以使用以下等式将概率转换为logit,所以两者不可能相同。Leela Zero的神经网络配置应该具有与论文中描述的架构几乎相同的架构,似乎表明上面引用中描述的全连接层需要跟随一个 softmax 层来生成概率(尽管我对 Caffe 完全陌生,可能无法正确解释“p_ip1”和“loss_move”的定义)。AlphaGo 零备忘单在其他方面非常有用,它只是呼应了“logit 概率”这个短语,就好像这是一个众所周知的概念。我看过几个自己引用“logits”的网站(比如这个),但这不足以让我满意,“logit 概率”必须是指“通过 softmax 函数传递 logit 向量生成的概率”。
什么是 logit 概率?我可以阅读哪些资料来帮助我更好地理解这个概念?