机器算法验证 - 如何使用/解释经验分布？ - 吾爱随笔录

首先我想为这个模糊的标题道歉，我现在真的无法制定一个更好的，请随时更改，或建议我更改标题以使其更适合问题的核心.

现在关于这个问题本身，我一直在研究一个软件，在这个软件中我遇到了使用经验分布进行采样的想法，但是现在它已经实现了，我不知道如何解释它。请允许我描述一下我做了什么，以及为什么：

我对一组对象进行了一堆计算，得出了最终分数。然而，分数是非常临时的。因此，为了使特定对象的分数有意义，我所做的是使用模拟/随机生成的值对分数进行大量（N = 1000）计算，产生 1000 个模拟分数。然后通过这 1000 个模拟分数值来估计该特定对象的经验“分数分布”。

我已经使用Apache Commons Math 库在 Java 中实现了这个（因为软件的其余部分也是在 Java 环境中编写的），特别是EmpiricalDistImpl类根据该类使用的文档：

什么相当于具有高斯平滑的可变核方法：消化输入文件

传递文件一次以计算最小值和最大值。

将 min-max 的范围划分为 binCount “bins”。

再次传递数据文件，计算每个 bin 的 bin 计数和单变量统计信息（平均值、标准偏差）

将区间 (0,1) 划分为与 bin 相关的子区间，bin 的子区间的长度与其计数成正比。

现在我的问题是，从这个分布中采样以计算某种期望值是否有意义？换句话说，我能在多大程度上信任/依赖这个分布？例如，我可以通过检查分布得出关于观察分数 $S$

我意识到这可能是看待此类问题的一种非正统方式，但我认为更好地掌握经验分布的概念以及它们如何/不能用于分析会很有趣。