机器算法验证 - 通用样本熵 - 吾爱随笔录

当给定离散随机变量的样本时，分布的熵可以通过来估计，其中是对频率的样本估计第个值。（这取决于对数基数确定的常数。）这种估计不应该应用于来自连续分布的观察，至少天真，因为它会产生一个仅取决于样本大小的值。 $- \sum \hat{P_i} \log{\hat{P_i}}$ $\hat{P_i}$ $i$

Beirlant等人描述了许多连续问题的方法，包括基于经验 CDF 的估计、最近邻距离和由，其中 }是样本，并且随以某种方式变化。目前尚不清楚在存在关系的情况下如何计算该估计值，即它似乎不适用于离散分布。（对关系的天真更正（删除具有 $m$

\frac{1}{n} \sum_{i = 1}^{n - m} \log (\frac{n}{m} (X_{(i + m)} - X_{(i)}))

$\frac{1}{n}\sum_{i=1}^{n-m}\log{(\frac{n}{m}(X_{(i+m)} - X_{(i)}))}$

X_{(i)}

$X_{(i)}$

i

$i$

m

$m$

n

$n$

\log 0

$\log{0}$ ）似乎给出了一个不依赖于类的相对频率的估计量，只依赖于它们的值，这似乎是错误的。）

问题：是否有一个“通用”估计器可以处理离散和连续（甚至混合）分布？