机器算法验证 - G 检验统计量和 KL 散度 - 吾爱随笔录

根据 Wikipedia，G 检验统计量“与经验分布与理论分布的 Kullback-Leibler 散度成正比”。得到之间的关系 $G$ 和KL散度：

\begin{aligned} G & = 2 \sum_{i} O_{i} \ln (\frac{O_{i}}{E_{i}}) \\ = 2 \sum_{i} n P (i) \ln (\frac{n P (i)}{n Q (i)}) \\ = 2 n \sum_{i} P (i) \ln (\frac{P (i)}{Q (i)}) \\ = 2 n \times D_{K L} (P ‖ Q) \end{aligned}

$\begin{align*} G &= 2 \sum_i O_i \ln\left(\frac{O_i}{E_i}\right) \\ &= 2 \sum_i n P(i) \ln\left(\frac{n P(i)}{n Q(i)}\right) \\ &= 2n \sum_i P(i) \ln\left(\frac{P(i)}{Q(i)}\right) \\ &= 2n \times D_{KL}(P \| Q) \end{align*}$

这是我有点困惑的地方。 $D_{KL}(P \| Q)$ 代表分歧 $Q$ （预期分布）来自 $P$ （观察到的分布）。这与维基百科页面中的陈述相反（假设“理论”是指预期，“经验”是指观察到的）。

现在从 KL 散度的信息论解释来看， $P$ is 代表“真实”分布，并且 $Q$ 是“近似值”。但从这个推导来看，结果似乎违反直觉。预期分布不应该对应于真实分布，而观察到的分布不应该对应于近似值吗？