由于泊松分布中的阶乘,当观测值很大时,估计泊松模型(例如,使用最大似然)变得不切实际。因此,例如,如果我试图估计一个模型来解释给定年份的自杀人数(只有年度数据可用),并且说,每年有数千人自杀,那么用数百人表示自杀是错误的吗? ,所以 2998 将是 29.98 ~= 30?换句话说,改变计量单位以使数据易于管理是错误的吗?
大数据泊松回归:改变计量单位有错吗?
机器算法验证
造型
泊松分布
大数据
2022-01-20 14:51:32
4个回答
当您处理具有较大 λ(其参数)值的泊松分布时,通常使用泊松分布的正态近似。
正如这个网站所提到的,当 λ 超过 20 时可以使用正态近似值,并且随着 λ 变得更高,近似值会提高。
泊松分布仅在由非负整数组成的状态空间上定义,因此重新缩放和舍入会在您的数据中引入奇怪的东西。
使用正常的大约。对于大型泊松统计是非常常见的。
在泊松的情况下,这很糟糕,因为计数就是计数——它们的单位是一个单位。另一方面,如果你使用一些像 R 这样的高级软件,它的泊松处理函数会意识到如此大的数字,并会使用一些数值技巧来处理它们。
显然,我同意正态近似是另一种好方法。
恐怕你做不到。正如@Baltimark 所说,对于大的 lambda,分布将具有更正常的形状(对称),并且随着将其缩小,它将不再是泊松分布。在 R 中尝试以下代码:
poi1 = rpois(100000, lambda = 5) # poisson
poi2 = rpois(100000, lambda = 100)/20 # scaled-down poisson
poi2_dens = density(poi2)
hist(poi1, breaks = 0:30, freq = F, ylim = range(poi2_dens$y))
lines(poi2_dens, col = "red")
结果如下:
您可以看到缩小后的泊松(红线)与泊松分布完全不同。
大多数统计软件包都有一个函数可以直接计算阶乘的自然对数(例如 R 中的 lfactorial() 函数,Stata 中的 lnfactorial() 函数)。如果需要,这允许您在对数似然中包含常数项。
其它你可能感兴趣的问题