直方图对高维数据没有用处。维度的诅咒影响一个相当快的。与您的情况一样,如果网格的大小为 7**6,则您平均在一个 bin 中有一个点。只要您保持足够大的内核带宽,内核密度估计器就更适合。根据我的经验,如果采样足够,作为 k 最近邻的顶帽内核会产生合理的结果,直到 D=10。还有一个非常有效的算法来计算更高维度的k 最近邻,我可以推荐。
此外,内核形状并不那么重要,因为由于缺乏数据,您需要保持足够大的带宽。如果您看到对内核形状的依赖,您的带宽可能太小了。有几个经验法则如何选择带宽。
如果您根据概率密度计算其他一些属性,那么在几乎所有情况下,您最好根本不计算密度。
编辑以正确评论评论
如果您检查每个箱的统计误差,恐怕您无法用直方图捕捉高维数据的细微差别。继续做一些简单的随机数实验,用你的样本量检查每个箱的波动。除非您使用像 2**6 这样非常小的网格尺寸,否则一开始是没有意义的,否则您只会将噪声视为细微差别。
为了计算熵 == Jensen Shannon 散度,我推荐以下我在博士论文中使用的论文。
文章 (Hnizdo2007) Hnizdo, V.;达里安,E。费多罗维茨,A.;德姆丘克,E.;Li, S. & Singh, H. 用于估计复杂分子构型熵的最近邻非参数方法。计算化学杂志, J Comput Chem, 2007, 28, 655
文章 (Hnizdo2008) Hnizdo, V.;谭,J。Killian, B. & Gilson, M. 通过结合互信息扩展和最近邻方法从分子模拟中高效计算构型熵 计算化学杂志,NIH 公共访问,2008, 29, 1605
我不知道推土机的距离,但以前从未使用过。看起来您需要将两个分布组合在一起的相空间转换工作。在我看来,这类似于分布给出的两个系统之间的自由能差异。