当两者具有不同的泊松分布时,如何证明事件 A 发生的机会随着事件 B 的存在而增加?

机器算法验证 可能性 条件概率 泊松分布
2022-04-11 17:28:46

如果我们有事件:

  • A 是给定时间段内/月的降雨次数(每个月的降雨率相等)
  • B 是给定时间段内每月冰雹的数量(冬季增加的比率)

当事件 B 的概率增加时,我们能否从统计上证明事件 A 的概率会增加?如果是,如何?

编辑:感谢您的宝贵意见。我对这个问题感兴趣的原因是因为在诊断癫痫的脑电图追踪中,我们看到“尖峰”,这些事件以或多或少的恒定速率发生(尽管清醒和睡眠的速率不同,但我只对尖峰感兴趣睡着了)。通常情况下,睡眠期间该速率保持不变,但在少数情况下,它会在存在称为“k-complex”的事件时增加。假设这些k-复合物实际上增加了致癫痫性并因此增加了“尖峰”。因此,如果我们在睡眠期间有“睡眠期间的尖峰”和“k-complexes”(特定睡眠阶段中的罕见事件)的泊松,我们能否从统计学上证明当 k-complexes 的数量增加时,尖峰也会增加?

1个回答

如果 A 是泊松,你会说它的发生率,而不是它的概率。

如果这是基于数据,而不是完全确定的联合分布,一种简单的方法是以观察到的 B 值为条件,有趣的是,当 B 的计数较高时,观察到的 A 的计数是否趋于较高.

所以问题将是“当 B 的出现率较高时,我们如何查看 A 的出现率是否会增加?”

如果这是您的意图,我们当然可以到达某个地方(如果不是,请编辑您的问题以澄清您的实际意图):

您可能会做一些简单的事情,例如寻找正相关(不一定是线性的 - 您可能会通过非参数相关之类的东西来查看单调关联)。

另一种方法是对 A 的计数对 B 的计数进行泊松回归 (GLM)(希望包括任何其他已知或可能重要的协变量);在其他一些情况下,通过在泊松回归中包含偏移量,B 可能会被视为曝光(但我认为这不适合这个特定示例)。

这是一个带有模拟数据的插图(在这种情况下,我知道模型,因为我创建了数据):

在此处输入图像描述

从图中我们可以看出,两者是正相关的。他们的皮尔逊相关系数是:

 cor(x,y)
[1] 0.8057106

在这里,我用身份链接拟合 GLM(在 R 中)(更常见的是,将使用日志链接,但这里的模型更接近这个特定示例中的数据生成模型)。在这种情况下,我们拟合,它看起来像一个回归模型,但这里的 GLM 模型考虑了观察是条件泊松的事实。命令E(Y|X=x)=β0+β1x

summary(glm(y~x,family=poisson(link=identity)))

适合上述模型,输出:

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  13.9571     3.6826    3.79 0.000151 ***
x             0.9533     0.1806    5.28 1.29e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for poisson family taken to be 1)

    Null deviance: 42.907  on 39  degrees of freedom
Residual deviance: 15.284  on 38  degrees of freedom
AIC: 232.81

在这种情况下,拟合模型很好地再现了用于创建它的实际过程;真正的模型是是从条件泊松模型生成的(平均值取两个不同的值),并且等于加上“背景”泊松过程(具有恒定强度)。xyx

这里的解释是,当增加计数平均增加约x1y0.95

截距项选取了背景过程(总体平均值为 13),斜率项选取了效应(总体系数为 1)。x


正如gung在下面建议的那样,如果您将每日降雨量和每日冰雹作为伯努利(每天是否下雨,是否有冰雹),那么您可以处理概率而不是计数,并且有多种建模方法。他在评论中的建议是查看问题的好方法(比我在这里的建议要复杂得多),并且会让您更接近于估计每单位时间的潜在概率,而不是直接观察到的每单位时间的速率。