在 Bishop 的Pattern Recognition and Machine Learning中,10.1.2 节有一个关于最小化和关于的参数,其中是已知分布。具体来说,他们指出,最小化会导致 q 的广泛分布,的多个模式中平均,同时最小化导致的单一模式上。直观地说,我看到多个模式的平均值导致Dķ大号( p| |q)Dķ大号( q| |p )qpDKL(p||q)qpDKL(q||p)qpq它比集中在单一模式上的熵更大。书中的下图总结了这一点:

然而,这与数学相矛盾,因为
和
在这里
给出。因此,在数学上,最小化是通过鼓励更大的熵值来实现的,而最小化有效地忽略了熵的。DKL(p||q)=H(p,q)−H(p)(1)
DKL(q||p)=H(q,p)−H(q)(2)
DKL(q||p)qDKL(p||q)q
时的熵不应该大于最小(每个 wrt 的参数)吗?qDKL(q||p)DKL(p||q)q