通用样本熵

机器算法验证 离散数据 连续数据
2022-04-04 03:14:55

当给定离散随机变量的样本时,分布的熵可以通过来估计,其中是对频率的样本估计第个值。(这取决于对数基数确定的常数。)这种估计不应该应用于来自连续分布的观察,至少天真,因为它会产生一个仅取决于样本大小的值。Pi^logPi^Pi^i

Beirlant等人描述了许多连续问题的方法,包括基于经验 CDF 的估计、最近邻距离和,其中 }样本,并且以某种方式变化。目前尚不清楚在存在关系的情况下如何计算该估计值,它似乎不适用于离散分布。(对关系的天真更正(删除具有m

1ni=1nmlog(nm(X(i+m)X(i)))
X(i)imnlog0)似乎给出了一个不依赖于类的相对频率的估计量,只依赖于它们的值,这似乎是错误的。)

问题:是否有一个“通用”估计器可以处理离散和连续(甚至混合)分布?

1个回答

熵是关于度量的熵

正如在回答这个问题https://mathoverflow.net/questions/33088/entropy-of-a-general-prob-measure/33090#33090中注意到的那样,熵仅针对给定的度量进行定义。例如,离散熵是关于计数度量的熵。

样本熵应该是对预定义熵的估计。

我认为样本熵的概念可以推广到任何类型的熵,但是您需要在估计之前知道要估计的熵。

关于计数 + lebesgues 的熵示例

上的 lebesgues 度量上的计数度量之和的熵,那么一个好的估计肯定(我的直觉)是您在问题中提到的两个估计值()。 [0,1]{0,1}i=0,1