检查两个泊松样本是否具有相同的均值

机器算法验证 假设检验 泊松分布
2022-01-26 21:28:22

这是一个基本问题,但我无法找到答案。我有两个测量值:时间 t1 中的 n1 个事件和时间 t2 中的 n2 个事件,两者都是由泊松过程产生(比如说),具有可能不同的 lambda 值。

这实际上来自一篇新闻文章,该文章本质上声称由于两者不同,但我不确定该声明是否有效。假设没有恶意选择时间段(以最大化其中一个或另一个中的事件)。n1/t1n2/t2

我可以只做一个t检验,还是不合适?事件的数量太少,我无法轻松地将分布称为近似正态分布。

4个回答

为了检验泊松均值,条件方法由 Przyborowski 和 Wilenski (1940) 提出。给定 X1+X2 的 X1 的条件分布遵循二项分布,其成功概率是比率 2 的函数。因此,假设检验和区间估计程序可以很容易地从用于推断二项式成功概率的确切方法中开发出来。为此,通常考虑两种方法,

  1. C测试
  2. 电子测试

您可以在本文中找到有关这两个测试的详细信息。 比较两个泊松均值的更强大的检验

怎么样:

poisson.test(c(n1, n2), c(t1, t2), alternative = c("two.sided"))

这是一个比较泊松率 1 和 2 的检验,并给出 ap 值和 95% 置信区间。

您正在寻找一种快速简便的检查方式。

在速率(lambda 值)相等的零假设下,例如的单个过程并计算区间期间的事件(个)和区间期间的事件(个)。您将估计速率为λt=t1+t2[0,t1]n1[t1,t1+t2]n2

λ^=n1+n2t1+t2

从中您可以估计的分布:它们是附近强度的泊松。如果一个或两个位于该分布的尾部,则该声明很可能是有效的;如果不是,则索赔可能依赖于机会变化。nitiλ^ni

我对置信区间比对 ap 值更感兴趣,这是一个引导近似值。

首先计算间隔的长度,然后检查:

Lrec = as.numeric(as.Date("2010-07-01") - as.Date("2007-12-02")) # Length of recession
Lnrec = as.numeric(as.Date("2007-12-01") - as.Date("2001-12-01")) # L of non rec period
(43/Lrec)/(50/Lnrec)

[1] 2.000276

此检查的结果(增加 100.03%)与出版物中的结果(增加 101%)略有不同。继续使用引导程序(执行两次):

N = 100000
k=(rpois(N, 43)/Lrec)/(rpois(N, 50)/Lnrec)
c(quantile(k, c(0.025, .25, .5, .75, .975)), mean=mean(k), sd=sd(k))

     2.5%       25%       50%       75%     97.5%      mean        sd 
1.3130094 1.7338545 1.9994599 2.2871373 3.0187243 2.0415132 0.4355660 

     2.5%       25%       50%       75%     97.5%      mean        sd 
1.3130094 1.7351970 2.0013578 2.3259023 3.0173868 2.0440240 0.4349706 

增加的 95% 置信区间为 31% 至 202%。