当给定离散随机变量的样本时,分布的熵可以通过来估计,其中是对频率的样本估计第个值。(这取决于对数基数确定的常数。)这种估计不应该应用于来自连续分布的观察,至少天真,因为它会产生一个仅取决于样本大小的值。
Beirlant等人描述了许多连续问题的方法,包括基于经验 CDF 的估计、最近邻距离和由,其中 }是样本,并且随以某种方式变化。目前尚不清楚在存在关系的情况下如何计算该估计值,即它似乎不适用于离散分布。(对关系的天真更正(删除具有
)似乎给出了一个不依赖于类的相对频率的估计量,只依赖于它们的值,这似乎是错误的。)
问题:是否有一个“通用”估计器可以处理离散和连续(甚至混合)分布?