机器算法验证 - 定性地什么是交叉熵 - 吾爱随笔录

定性地什么是交叉熵

机器算法验证熵信息论

2022-02-06 15:49:31

这个问题根据公式给出了交叉熵的定量定义。

我正在寻找一个更概念化的定义，维基百科说：

在信息论中，如果基于给定概率分布 q 而不是“真实”分布 p 使用编码方案，则两个概率分布之间的交叉熵测量从一组可能性中识别事件所需的平均比特数.

我已经强调了让我难以理解这一点的部分。我想要一个很好的定义，不需要单独（预先存在）理解熵。

1个回答

对概率发生的事件进行编码 $p$ 你至少需要 $\log_2(1/p)$ 位（为什么？请参阅我对“对数在香农熵中的作用是什么？”的回答）。

所以在最佳编码中，编码消息的平均长度是

\sum_{i} p_{i} \log_{2} (\frac{1}{p_{i}}),

$\sum_i p_i \log_2(\tfrac{1}{p_i}),$ 即原始概率分布的香农熵。

但是，如果对于概率分布 $P$ 您使用最适合不同概率分布的编码 $Q$ ，则编码消息的平均长度为

\sum_{i} p_{i} code_length(i) = \sum_{i} p_{i} \log_{2} (\frac{1}{q_{i}}),

$\sum_i p_i \text{code_length($i$)} = \sum_i p_i \log_2(\tfrac{1}{q_i}),$ 是交叉熵，大于

\sum_{i} p_{i} \log_{2} (\frac{1}{p_{i}})

$\sum_i p_i \log_2(\tfrac{1}{p_i})$ .

例如，考虑四个字母（A、B、C、D）的字母表，但 A 和 B 具有相同的频率，而 C 和 D 根本不出现。所以概率是 $P=(\tfrac{1}{2}, \tfrac{1}{2}, 0, 0)$ .

然后，如果我们想以最佳方式对其进行编码，我们将 A 编码为 0，将 B 编码为 1，因此我们每一个字母得到一位编码消息。（这正是我们概率分布的香农熵。）

但是如果我们有同样的概率 $P$ , 但我们根据所有字母的概率相同的分布对其进行编码 $Q=(\tfrac{1}{4},\tfrac{1}{4},\tfrac{1}{4},\tfrac{1}{4})$ ，然后我们得到每个字母两位（例如，我们将 A 编码为 00，B 编码为 01，C 编码为 10，D 编码为 11）。

其它你可能感兴趣的问题

上一篇如何计算经验概率密度之间的重叠？下一篇使用 R 计算多元回归中每个预测变量解释的方差