学习信息统计:非参数方法论文提出了一种通过熵最小化进行参数估计的方法。还有其他相关著作《半参数模型中的最小熵估计》下载链接(http://dl.acm.org/citation.cfm?id=1195853)。提供的基本原理是误差熵的最小化等同于似然的最大化。我是这个领域的新手,很难理解为什么误差最小化的熵会产生参数背后的直觉。当熵最小化时会发生什么?
当香农熵最大化时会发生什么?熵(Shannon's)是不确定性=平均信息或不确定性(不确定)。
当熵最小化时会发生什么
最小化误差熵是什么意思?