为什么熵有时被写成一个以随机变量为参数的函数?

机器算法验证 信息论 符号
2022-04-04 01:14:41

为什么人们有时将熵写为随机变量上的函数?

例如,在一些课堂笔记中,我看到:

XQ(X)logQ(X)=HQ(X)

我意识到这不能被视为超正式的,因为存在混合随机变量及其值的符号的滥用,但即使考虑到这一点,这似乎也没有多大意义,因为熵是分布为什么不简单地写甚至为什么要保留QHQH(Q)X

4个回答

这是绕过分布的符号(类似于矩)

从公式可以看出,熵完全由随机变量的概率分布决定,而不是随机变量本身。在您在问题中给出的公式中,对象用作求和的索引,因此求和不依赖于(它是等式的“求和”)。(请注意,对随机变量和求和指数使用相同的符号是不好的符号。)您所指的符号类似于随机变量矩的符号,它们也完全由分布决定那些随机变量。我将在这里尝试解释替代的符号方法。XX


两种可能的表示法:如果你用来表示随机变量的质量函数(并让表示它的支持),那么熵的自然表示法将是:QX

H(Q)xXQ(x)logQ(x).

但是,如果您接受矩的符号,您也可以合理地将熵表示为:

H(X)E(log(X))=xXQ(x)logQ(x).

这两个备选方案将符号框定为分布的函数或随机变量的函数。在后一种情况下,我们使用与随机变量矩相同的符号约定,它们也是随机变量潜在分布的函数。


矩表示法的技术问题:从技术角度来看,随机变量是样本空间上的映射。如果我们在概率空间中工作,那么随机变量是一个可测量的函数从样本空间到真实数字。重要的是,随机变量不包含有关其自身分布的信息,因此不可能将分布的熵(或分布的任何时刻)纯粹定义为随机变量的函数。可以从随机变量概率测度中获得概率分布(Ω,G,P)X:ΩRX P,所以这样的函数可以有两个参数,但它不能只是随机变量的函数。

这意味着每当我们使用矩表示法(我们将矩表示为随机变量的函数而不是分布)时,函数必须隐含地以潜在的概率度量或随机变量的特定分布为条件有问题。有时我们有一个函数,其中一个或多个参数只是隐含的,并且没有出现在函数符号中,因此当然可以用这种方式编写矩(和熵函数)。它在统计问题中很常见。这种表示法很方便,因为它允许您将矩/熵直接与随机变量而不是它们的分布相关联。P

如果您还记得 X 是一个统计集合,那么它是有道理的,它与一些概率分布相关联。例如,关于信息论熵的维基百科文章一直使用符号从这个意义上说,实际上是无关紧要的 Q。H(X)

我可以推测您的讲师在其中包含 Q 的两个原因。Q 可能会提醒您相关的概率分布是什么。它也可以是介绍交叉熵等概念的前言,您可以在其中取不同分布 P 的平均值。(交叉熵维基百科文章专门使用与交叉熵函数参数相同的分布。)

H只是一些聪明人用来表示熵的字母。甚至可以将用于熵,但随后会与预期值混淆。E

在这里,意味着是离散随机变量的概率分布。XDDX

H[X]=xD,xRXP(x)log2P(x)

在哪里:

  • P(x)X=x
  • xD (也是从得出的)xD
  • RX是 X 的支持度可以取的所有可能值的集合)XX

一个可能的观点是,它更好地适应条件熵(或互信息)的符号:考虑通用符号,其中被理解为指上的联合分布,而不是可能的替代方法考虑例如,这可能会误导人们认为它是单独的边际分布的函数。HP(X|Y)PXYXYH(PX|PY)PXPY

(当然,不是唯一可以尝试表示这一点的方法,但似乎很可能任何条件熵的符号都需要引用X Y联合分布某种形式 - 所以你不妨把它放在一起。)H(PX|PY)XYPXYHP(X|Y)

尽管在任何情况下,当只有一个随机变量时,您并不是唯一一个建议使用符号H(P)