“交叉熵”的定义和起源

机器算法验证 信息论
2022-02-08 22:53:06

在没有引用来源的情况下,维基百科定义了离散分布的交叉熵PQ成为

H×(P;Q)=xp(x)logq(x).

谁最先开始使用这个数量?谁发明了这个术语?我看了看:

JE Shore 和 RW Johnson,“最大熵原理和最小交叉熵原理的公理推导”,信息论,IEEE Transactions on,第一卷。26,没有。1,第 26-37 页,1980 年 1 月。

我按照他们的介绍

A. Wehrl,“熵的一般性质”,现代物理学评论,卷。50,没有。2,第 221-260 页,1978 年 4 月。

谁从不使用这个词。

也没有

S. Kullback 和 R. Leibler,“关于信息和充分性”,《数理统计年鉴》,第一卷。22,没有。1,第 79-86 页,1951 年。

我看了看

TM Cover 和 JA Thomas,信息论要素(电信和信号处理中的 Wiley 系列)。威利交叉科学,2006 年。

I. Good,“假设公式的最大熵,尤其是多维列联表”,《数理统计年鉴》,卷。34,没有。3,第 911-934 页,1963 年。

但两篇论文都将交叉熵定义为 KL 散度的同义词。

原纸

CE Shannon,“通信的数学理论”,贝尔系统技术期刊,卷。1948 年 2 月 27 日。

没有提到交叉熵(并且对“相对熵”有一个奇怪的定义:“源的熵与其可能具有的最大值之比,同时仍限制为相同的符号”)。

最后,我查看了 Tribus 的一些旧书和论文。

有谁知道上面的等式叫什么,是谁发明的或者有一个很好的介绍?

3个回答

它似乎与Kullback-Leibler 散度的概念密切相关(参见Kullback 和 Leibler,1951 年)。在他们的文章 Kullback 和 Leibler 中讨论了区分两个假设的平均信息(定义为I1:2(E)在等式中。2.22.4) 并引用 Shannon 和 Weaver 的The Mathematical Theory of Communication (1949) 和 p. 18-19。76 维纳的控制论(1948 年)。

编辑:

其他别名包括Kullback-Leibler 信息度量、相对信息度量、交叉熵、I-散度和Kerridge 不准确性

感谢@Itamar 的建议,我在以下内容中找到了提及:

IJ Good,“信息论中的一些术语和符号”,独立外部评价会刊 - C 部分:专着,第一卷。103,没有。3,第 200-204 页,1956 年 3 月。

找到一个很好的交叉熵表示对我来说仍然非常有用。

感谢这一点 - 背景文献的良好总结。IEEE 1980 年的 Shore 和 Johnson 文章是一个好的开始,但 @itamar 指向 1956 年的 Good 专着更好。这个概念似乎来自 Shannon 的工作,Kullback & Leibler 的 1951 AMS 笔记是该术语当前使用的起源。至于“交叉熵”这个术语的起源与人工神经网络有关,GE Hinton、P. Dayan、BJ Frey 和 RM Neal 于 1994 年提交、1995 年出版的《科学》论文中使用了一个术语。其中有一个术语“Hemholtz Machine”的早期使用 - 可能是第一个。复制网址:http ://elderlab.yorku.ca/~elder/teaching/cosc6390psyc6225/readings/hinton%201995.pdf 在那篇论文“无监督神经网络的唤醒睡眠算法”中,等式 #5 之前的注释说:“当有许多替代方法来描述输入向量时,可以设计一种随机编码方案,利用跨替代描述的熵[1]。成本为:”(见论文 eqn#5)“第二项是识别权重分配给各种替代表示的分布的熵。” 在本文后面,eqn#5 被重写为 eqn#8,最后一项被描述为初始概率分布和后验概率分布之间的 Kullback-Leibler 散度。该论文指出:“因此,对于将相等概率分配给 d 的两个生成模型,)本文仍然将这个特定算法的最小化过程描述为最小化 Kullback-Leibler 散度,但看起来它可能是术语“跨替代描述的熵”被缩短为“交叉熵”的地方。有关使用 TensorFlow 的交叉熵的数值示例,请参阅此处的帖子,这很有帮助:)本文仍然将这个特定算法的最小化过程描述为最小化 Kullback-Leibler 散度,但看起来它可能是术语“跨替代描述的熵”被缩短为“交叉熵”的地方。有关使用 TensorFlow 的交叉熵的数值示例,请参阅此处的帖子,这很有帮助: https://stackoverflow.com/questions/41990250/what-is-cross-entropy 请注意,CE = 0.47965 的解决方案仅通过取 0.619 概率的自然对数得出。在上面的例子中,使用“一个热”编码意味着在交叉熵的求和中,由于乘以零值初始概率,其他两个初始概率和后验概率被忽略。