这个问题根据公式给出了交叉熵的定量定义。
我正在寻找一个更概念化的定义,维基百科说:
在信息论中,如果基于给定概率分布 q 而不是“真实”分布 p 使用编码方案,则两个概率分布之间的交叉熵测量从一组可能性中识别事件所需的平均比特数.
我已经强调了让我难以理解这一点的部分。我想要一个很好的定义,不需要单独(预先存在)理解熵。
这个问题根据公式给出了交叉熵的定量定义。
我正在寻找一个更概念化的定义,维基百科说:
在信息论中,如果基于给定概率分布 q 而不是“真实”分布 p 使用编码方案,则两个概率分布之间的交叉熵测量从一组可能性中识别事件所需的平均比特数.
我已经强调了让我难以理解这一点的部分。我想要一个很好的定义,不需要单独(预先存在)理解熵。
对概率发生的事件进行编码你至少需要位(为什么?请参阅我对“对数在香农熵中的作用是什么?”的回答)。
所以在最佳编码中,编码消息的平均长度是
但是,如果对于概率分布您使用最适合不同概率分布的编码,则编码消息的平均长度为
例如,考虑四个字母(A、B、C、D)的字母表,但 A 和 B 具有相同的频率,而 C 和 D 根本不出现。所以概率是.
然后,如果我们想以最佳方式对其进行编码,我们将 A 编码为 0,将 B 编码为 1,因此我们每一个字母得到一位编码消息。(这正是我们概率分布的香农熵。)
但是如果我们有同样的概率, 但我们根据所有字母的概率相同的分布对其进行编码,然后我们得到每个字母两位(例如,我们将 A 编码为 00,B 编码为 01,C 编码为 10,D 编码为 11)。