在没有引用来源的情况下,维基百科定义了离散分布的交叉熵和成为
谁最先开始使用这个数量?谁发明了这个术语?我看了看:
JE Shore 和 RW Johnson,“最大熵原理和最小交叉熵原理的公理推导”,信息论,IEEE Transactions on,第一卷。26,没有。1,第 26-37 页,1980 年 1 月。
我按照他们的介绍
A. Wehrl,“熵的一般性质”,现代物理学评论,卷。50,没有。2,第 221-260 页,1978 年 4 月。
谁从不使用这个词。
也没有
S. Kullback 和 R. Leibler,“关于信息和充分性”,《数理统计年鉴》,第一卷。22,没有。1,第 79-86 页,1951 年。
我看了看
TM Cover 和 JA Thomas,信息论要素(电信和信号处理中的 Wiley 系列)。威利交叉科学,2006 年。
和
I. Good,“假设公式的最大熵,尤其是多维列联表”,《数理统计年鉴》,卷。34,没有。3,第 911-934 页,1963 年。
但两篇论文都将交叉熵定义为 KL 散度的同义词。
原纸
CE Shannon,“通信的数学理论”,贝尔系统技术期刊,卷。1948 年 2 月 27 日。
没有提到交叉熵(并且对“相对熵”有一个奇怪的定义:“源的熵与其可能具有的最大值之比,同时仍限制为相同的符号”)。
最后,我查看了 Tribus 的一些旧书和论文。
有谁知道上面的等式叫什么,是谁发明的或者有一个很好的介绍?