如果 A 是泊松,你会说它的发生率,而不是它的概率。
如果这是基于数据,而不是完全确定的联合分布,一种简单的方法是以观察到的 B 值为条件,有趣的是,当 B 的计数较高时,观察到的 A 的计数是否趋于较高.
所以问题将是“当 B 的出现率较高时,我们如何查看 A 的出现率是否会增加?”
如果这是您的意图,我们当然可以到达某个地方(如果不是,请编辑您的问题以澄清您的实际意图):
您可能会做一些简单的事情,例如寻找正相关(不一定是线性的 - 您可能会通过非参数相关之类的东西来查看单调关联)。
另一种方法是对 A 的计数对 B 的计数进行泊松回归 (GLM)(希望包括任何其他已知或可能重要的协变量);在其他一些情况下,通过在泊松回归中包含偏移量,B 可能会被视为曝光(但我认为这不适合这个特定示例)。
这是一个带有模拟数据的插图(在这种情况下,我知道模型,因为我创建了数据):
从图中我们可以看出,两者是正相关的。他们的皮尔逊相关系数是:
cor(x,y)
[1] 0.8057106
在这里,我用身份链接拟合 GLM(在 R 中)(更常见的是,将使用日志链接,但这里的模型更接近这个特定示例中的数据生成模型)。在这种情况下,我们拟合,它看起来像一个回归模型,但这里的 GLM 模型考虑了观察是条件泊松的事实。命令E(Y|X=x)=β0+β1x
summary(glm(y~x,family=poisson(link=identity)))
适合上述模型,输出:
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 13.9571 3.6826 3.79 0.000151 ***
x 0.9533 0.1806 5.28 1.29e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 42.907 on 39 degrees of freedom
Residual deviance: 15.284 on 38 degrees of freedom
AIC: 232.81
在这种情况下,拟合模型很好地再现了用于创建它的实际过程;真正的模型是是从条件泊松模型生成的(平均值取两个不同的值),并且等于加上“背景”泊松过程(具有恒定强度)。xyx
这里的解释是,当增加计数平均增加约x1y0.95
截距项选取了背景过程(总体平均值为 13),斜率项选取了效应(总体系数为 1)。x
正如gung在下面建议的那样,如果您将每日降雨量和每日冰雹作为伯努利(每天是否下雨,是否有冰雹),那么您可以处理概率而不是计数,并且有多种建模方法。他在评论中的建议是查看问题的好方法(比我在这里的建议要复杂得多),并且会让您更接近于估计每单位时间的潜在概率,而不是直接观察到的每单位时间的速率。