给定从两个不同分布中抽取的两组样本,是否可以使用这些样本在计算上获得两个分布之间的 KL-Divergence 估计值?
在这里,我假设两个分布的维数很高(比如d)。为了计算估计,我们首先需要离散化整个空间,然后根据频率估计概率。假设我们将每个维度离散化为p个bin。那么空间中的网格总数将是. 所以我们需要计算两个分布的概率网格,它在时间上是指数的。因此,我假设我们无法使用任何实际问题的样本来计算 KL 散度的估计值。
我想检查一下这个解释是否正确,或者我是否遗漏了什么。有人可以断言这个理由是否正确吗?