如何使用/解释经验分布?

机器算法验证 分布 采样 爪哇
2022-03-20 03:26:50

首先我想为这个模糊的标题道歉,我现在真的无法制定一个更好的,请随时更改,或建议我更改标题以使其更适合问题的核心.

现在关于这个问题本身,我一直在研究一个软件,在这个软件中我遇到了使用经验分布进行采样的想法,但是现在它已经实现了,我不知道如何解释它。请允许我描述一下我做了什么,以及为什么:

我对一组对象进行了一堆计算,得出了最终分数。然而,分数是非常临时的。因此,为了使特定对象的分数有意义,我所做的是使用模拟/随机生成的值对分数进行大量(N = 1000)计算,产生 1000 个模拟分数。然后通过这 1000 个模拟分数值来估计该特定对象的经验“分数分布”。

我已经使用Apache Commons Math 库在 Java 中实现了这个(因为软件的其余部分也是在 Java 环境中编写的)特别是EmpiricalDistImpl根据该类使用的文档:

什么相当于具有高斯平滑的可变核方法:消化输入文件

  1. 传递文件一次以计算最小值和最大值。
  2. 将 min-max 的范围划分为 binCount “bins”。
  3. 再次传递数据文件,计算每个 bin 的 bin 计数和单变量统计信息(平均值、标准偏差)
  4. 将区间 (0,1) 划分为与 bin 相关的子区间,bin 的子区间的长度与其计数成正比。

现在我的问题是,从这个分布中采样以计算某种期望值是否有意义?换句话说,我能在多大程度上信任/依赖这个分布?例如,我可以通过检查分布得出关于观察分数S

我意识到这可能是看待此类问题的一种非正统方式,但我认为更好地掌握经验分布的概念以及它们如何/不能用于分析会很有趣。

1个回答

经验分布一直用于推理,因此您绝对走在正确的轨道上!经验分布最常见的用途之一是自举。事实上,您甚至不必使用上面描述的任何机器。简而言之,您以统一的方式从原始样本中进行多次抽取(带替换),结果可用于计算先前计算的统计量的置信区间。此外,这些样本具有很好的理论收敛特性。在此处查看有关该主题的维基百科文章