信息处理 - 关于熵的概念问题及其与信息的关系 - 吾爱随笔录

关于熵的概念问题及其与信息的关系

信息处理信息论估计者

2022-02-06 16:32:26

学习信息统计：非参数方法论文提出了一种通过熵最小化进行参数估计的方法。还有其他相关著作《半参数模型中的最小熵估计》下载链接（http://dl.acm.org/citation.cfm?id=1195853）。提供的基本原理是误差熵的最小化等同于似然的最大化。我是这个领域的新手，很难理解为什么误差最小化的熵会产生参数背后的直觉。当熵最小化时会发生什么？

当香农熵最大化时会发生什么？熵（Shannon's）是不确定性=平均信息或不确定性（不确定）。
当熵最小化时会发生什么
最小化误差熵是什么意思？

1个回答

最大熵模型背后的基本思想是您希望对数据做出最少的假设。这被认为等同于尽可能多地保留由熵量化的不可预测性。有关更多信息，请参阅此 Wikipedia 文章。

信息和不可预测性密切相关。如果把信号看成一个随机过程，它的信息内容是由不可预知的决定的。在一种极端情况下，如果信号趋于确定性，您可以在任意时间判断它将是什么，因此对信号进行采样没有任何价值；它没有信息内容。熵形式化了这个概念。

为了找到最大化熵的密度，我们必须使用变分法，这涉及确定几个称为拉格朗日乘数的系数。这就是时刻的用武之地：它们是决定乘数的约束。我们设置 $n$ 'n=1..N 到常数的绝对矩，我们得到相应的最大熵分布。例如，前两个矩为的最大熵分布 $\mu$ 和 $\sigma^2$ 是高斯分布 $N(\mu, \sigma^2)$ . 有关推导的详细信息，请参阅教科书。

我没有读过这篇论文，但我猜的基本原理是，如果你想拟合一个模型，你想尽可能多地捕获信号信息。等效地，您希望在桌面上留下尽可能少的残留信息；即，在错误中。有关详细信息，请参阅信息论学习中的3.4 最小误差熵算法：Renyi's Entropy and Kernel Perspectives 。

其它你可能感兴趣的问题

上一篇采样率的计算及其对图像的影响？下一篇如何在给定基本事实的情况下评估背景减法算法？