首先我想为这个模糊的标题道歉,我现在真的无法制定一个更好的,请随时更改,或建议我更改标题以使其更适合问题的核心.
现在关于这个问题本身,我一直在研究一个软件,在这个软件中我遇到了使用经验分布进行采样的想法,但是现在它已经实现了,我不知道如何解释它。请允许我描述一下我做了什么,以及为什么:
我对一组对象进行了一堆计算,得出了最终分数。然而,分数是非常临时的。因此,为了使特定对象的分数有意义,我所做的是使用模拟/随机生成的值对分数进行大量(N = 1000)计算,产生 1000 个模拟分数。然后通过这 1000 个模拟分数值来估计该特定对象的经验“分数分布”。
我已经使用Apache Commons Math 库在 Java 中实现了这个(因为软件的其余部分也是在 Java 环境中编写的),特别是EmpiricalDistImpl类 根据该类使用的文档:
什么相当于具有高斯平滑的可变核方法:消化输入文件
- 传递文件一次以计算最小值和最大值。
- 将 min-max 的范围划分为 binCount “bins”。
- 再次传递数据文件,计算每个 bin 的 bin 计数和单变量统计信息(平均值、标准偏差)
- 将区间 (0,1) 划分为与 bin 相关的子区间,bin 的子区间的长度与其计数成正比。
现在我的问题是,从这个分布中采样以计算某种期望值是否有意义?换句话说,我能在多大程度上信任/依赖这个分布?例如,我可以通过检查分布得出关于观察分数
我意识到这可能是看待此类问题的一种非正统方式,但我认为更好地掌握经验分布的概念以及它们如何/不能用于分析会很有趣。