机器算法验证 - “交叉熵”的定义和起源 - 吾爱随笔录

“交叉熵”的定义和起源

机器算法验证信息论熵

2022-02-08 22:53:06

在没有引用来源的情况下，维基百科定义了离散分布的交叉熵 $P$ 和 $Q$ 成为

\begin{aligned} H^{\times} (P; Q) & = - \sum_{x} p (x) \log q (x) . \end{aligned}

$\begin{align} \mathrm{H}^{\times}(P; Q) &= -\sum_x p(x)\, \log q(x). \end{align}$

谁最先开始使用这个数量？谁发明了这个术语？我看了看：

JE Shore 和 RW Johnson，“最大熵原理和最小交叉熵原理的公理推导”，信息论，IEEE Transactions on，第一卷。26，没有。1，第 26-37 页，1980 年 1 月。

我按照他们的介绍

A. Wehrl，“熵的一般性质”，现代物理学评论，卷。50，没有。2，第 221-260 页，1978 年 4 月。

谁从不使用这个词。

也没有

S. Kullback 和 R. Leibler，“关于信息和充分性”，《数理统计年鉴》，第一卷。22，没有。1，第 79-86 页，1951 年。

我看了看

TM Cover 和 JA Thomas，信息论要素（电信和信号处理中的 Wiley 系列）。威利交叉科学，2006 年。

和

I. Good，“假设公式的最大熵，尤其是多维列联表”，《数理统计年鉴》，卷。34，没有。3，第 911-934 页，1963 年。

但两篇论文都将交叉熵定义为 KL 散度的同义词。

原纸

CE Shannon，“通信的数学理论”，贝尔系统技术期刊，卷。1948 年 2 月 27 日。

没有提到交叉熵（并且对“相对熵”有一个奇怪的定义：“源的熵与其可能具有的最大值之比，同时仍限制为相同的符号”）。

最后，我查看了 Tribus 的一些旧书和论文。

有谁知道上面的等式叫什么，是谁发明的或者有一个很好的介绍？

3个回答

它似乎与Kullback-Leibler 散度的概念密切相关（参见Kullback 和 Leibler，1951 年）。在他们的文章 Kullback 和 Leibler 中讨论了区分两个假设的平均信息（定义为 $I_{1:2}(E)$ 在等式中。 $2.2-2.4$ ) 并引用 Shannon 和 Weaver 的The Mathematical Theory of Communication (1949) 和 p. 18-19。76 维纳的控制论（1948 年）。

编辑：

其他别名包括Kullback-Leibler 信息度量、相对信息度量、交叉熵、I-散度和Kerridge 不准确性。

感谢@Itamar 的建议，我在以下内容中找到了提及：

IJ Good，“信息论中的一些术语和符号”，独立外部评价会刊 - C 部分：专着，第一卷。103，没有。3，第 200-204 页，1956 年 3 月。

找到一个很好的交叉熵表示对我来说仍然非常有用。

感谢这一点 - 背景文献的良好总结。IEEE 1980 年的 Shore 和 Johnson 文章是一个好的开始，但 @itamar 指向 1956 年的 Good 专着更好。这个概念似乎来自 Shannon 的工作，Kullback & Leibler 的 1951 AMS 笔记是该术语当前使用的起源。至于“交叉熵”这个术语的起源与人工神经网络有关，GE Hinton、P. Dayan、BJ Frey 和 RM Neal 于 1994 年提交、1995 年出版的《科学》论文中使用了一个术语。其中有一个术语“Hemholtz Machine”的早期使用 - 可能是第一个。复制网址：http ://elderlab.yorku.ca/~elder/teaching/cosc6390psyc6225/readings/hinton%201995.pdf 在那篇论文“无监督神经网络的唤醒睡眠算法”中，等式 #5 之前的注释说：“当有许多替代方法来描述输入向量时，可以设计一种随机编码方案，利用跨替代描述的熵[1]。成本为：”（见论文 eqn#5）“第二项是识别权重分配给各种替代表示的分布的熵。” 在本文后面，eqn#5 被重写为 eqn#8，最后一项被描述为初始概率分布和后验概率分布之间的 Kullback-Leibler 散度。该论文指出：“因此，对于将相等概率分配给 d 的两个生成模型，）本文仍然将这个特定算法的最小化过程描述为最小化 Kullback-Leibler 散度，但看起来它可能是术语“跨替代描述的熵”被缩短为“交叉熵”的地方。有关使用 TensorFlow 的交叉熵的数值示例，请参阅此处的帖子，这很有帮助：）本文仍然将这个特定算法的最小化过程描述为最小化 Kullback-Leibler 散度，但看起来它可能是术语“跨替代描述的熵”被缩短为“交叉熵”的地方。有关使用 TensorFlow 的交叉熵的数值示例，请参阅此处的帖子，这很有帮助： https://stackoverflow.com/questions/41990250/what-is-cross-entropy 请注意，CE = 0.47965 的解决方案仅通过取 0.619 概率的自然对数得出。在上面的例子中，使用“一个热”编码意味着在交叉熵的求和中，由于乘以零值初始概率，其他两个初始概率和后验概率被忽略。

其它你可能感兴趣的问题

上一篇列联表的筛子/马赛克图的替代方案下一篇在 R 中使用 glmnet 进行预测