关于熵的概念问题及其与信息的关系

信息处理 信息论 估计者
2022-02-06 16:32:26

学习信息统计:非参数方法论文提出了一种通过熵最小化进行参数估计的方法。还有其他相关著作《半参数模型中的最小熵估计》下载链接(http://dl.acm.org/citation.cfm?id=1195853)。提供的基本原理是误差熵的最小化等同于似然的最大化。我是这个领域的新手,很难理解为什么误差最小化的熵会产生参数背后的直觉。当熵最小化时会发生什么?

  1. 当香农熵最大化时会发生什么?熵(Shannon's)是不确定性=平均信息或不确定性(不确定)。

  2. 当熵最小化时会发生什么

  3. 最小化误差熵是什么意思?

1个回答

最大熵模型背后的基本思想是您希望对数据做出最少的假设。这被认为等同于尽可能多地保留由熵量化的不可预测性。有关更多信息,请参阅此 Wikipedia 文章

信息和不可预测性密切相关。如果把信号看成一个随机过程,它的信息内容是由不可预知的决定的。在一种极端情况下,如果信号趋于确定性,您可以在任意时间判断它将是什么,因此对信号进行采样没有任何价值;它没有信息内容。熵形式化了这个概念。

为了找到最大化熵的密度,我们必须使用变分法,这涉及确定几个称为拉格朗日乘数的系数。这就是时刻的用武之地:它们是决定乘数的约束。我们设置n'n=1..N 到常数的绝对矩,我们得到相应的最大熵分布。例如,前两个矩为的最大熵分布μσ2是高斯分布N(μ,σ2). 有关推导的详细信息,请参阅教科书

我没有读过这篇论文,但我猜的基本原理是,如果你想拟合一个模型,你想尽可能多地捕获信号信息。等效地,您希望在桌面上留下尽可能少的残留信息;即,在错误中。有关详细信息,请参阅信息论学习中的3.4 最小误差熵算法:Renyi's Entropy and Kernel Perspectives 。