从二项式试验估计基础 pdf

机器算法验证 估计 二项分布 密度函数
2022-03-31 14:54:32

恐怕我不是统计学专家,但我有一个特别想解决的问题。我很确定这个领域已经有很多文献,但我很难找到直接适用于我正在做的事情的东西,所以如果有人能把我推向正确的方向那就太好了。

我将举一个例子来说明这个问题:假设我有一台机器可以生产有偏差的硬币。它具有一些潜在的连续概率密度函数,用于选择一个数字 0 < p < 1,然后创建一个硬币,该硬币将以概率 p 出现正面。

我的任务是估计机器用来生成这些硬币的功能。我被允许翻转硬币,并且我可以使用大量的硬币,但是每一个硬币在经过一定的随机翻转次数后都会被我拿走。翻转的次数不一定很大。

我该怎么做呢?我最初的想法是将每个结果二项分布相加,然后除以测试的硬币总数。但我很确定这不会产生好的结果。

我对核密度估计有微弱的了解,但我没有足够的专业知识来知道它是否/如何用于此类任务,或者我应该知道在为该任务定制它方面应该知道什么。

2个回答

这只是一个简单的想法,并不是我在文献中看到的。我将通过观察每个硬币的数量来消除翻转的随机性。对于第 i 个随机选择的硬币,采用通常的 pi 估计值(即正面数除以翻转次数)。这组估计形成一个直方图,然后可以使用核密度方法来逼近连续曲线。这种方法的困难在于它忽略了 p 估计中的不确定性,该不确定性取决于翻转次数和真实 p。如果 ni 是第 i 个硬币的翻转次数并且对于每个 i 都很大,那么忽略这种不确定性将无关紧要。我认为每个硬币都有与其对 p 的估计相关的不同方差,这使事情变得有点复杂。

您的问题可以概括如下:

  1. 参数是根据未知的概率密度生成的。p
  2. 只能使用测量误差 ,这会为产生一个具有已知分布(二项分布)的估计量pσp^p

Glen_b 在 对类似问题的回答中建议了一种简单的方法:首先估计全局带宽,就好像测量值是精确的,然后将带宽增加到在你的情况下有关更复杂的方法,请参阅hp^1,,p^Nh2+σ2σi2=p^i(1p^i)/ni

Achilleos,Delaigle:用于反卷积核密度估计的局部带宽选择器。统计与计算 22,2 pp. 563–577, 2012