数据挖掘 - 使用从分布中抽取的样本计算 KL 散度的估计值 - 吾爱随笔录

给定从两个不同分布中抽取的两组样本，是否可以使用这些样本在计算上获得两个分布之间的 KL-Divergence 估计值？

在这里，我假设两个分布的维数很高（比如d）。为了计算估计，我们首先需要离散化整个空间，然后根据频率估计概率。假设我们将每个维度离散化为p个bin。那么空间中的网格总数将是 $p^d$ . 所以我们需要计算两个分布的概率 $p^d$ 网格，它在时间上是指数的。因此，我假设我们无法使用任何实际问题的样本来计算 KL 散度的估计值。

我想检查一下这个解释是否正确，或者我是否遗漏了什么。有人可以断言这个理由是否正确吗？