我有一个练习,我必须对一些数据使用泊松单向分类/回归。我拥有的数据是一组 120 个样本,这些样本按以下标签 A、B、C、D、E 和 F 分组。对于每组,有 20 个样本(或 20 个重复)具有计数值。现在这一切都很好,据我所知,它非常适合假设它可能适合泊松分布。
但是,据我了解,它是遵循的随机变量的属性之一,
然后它遵循
但是当我计算均值(预期)和方差时根据分组的数据:然后我得到
| | A | B | C | D | E | F |
|----------+-----------+-----------+-----------+-----------+------------+-----------|
|----------+-----------+-----------+-----------+-----------+------------+-----------|
| Mean | 4.90 | 9.45 | 8.65 | 1.45 | 18.35 | 0.80 |
| Variance | 9.8842105 | 6.4710526 | 7.3973684 | 1.3131579 | 15.6078947 | 0.5894737 |
|----------+-----------+-----------+-----------+-----------+------------+-----------|
因此,从我可以告诉的内容来看,只是为了展示我是如何使用 R 计算的:
( Means <- tapply(D$NumberPGrains, D$Era, mean) )
( Variances <- tapply(D$NumberPGrains, D$Era, var) )
这意味着,据我了解,数据不是泊松分布的。所以我的问题是:我错了,这仍然是泊松分布吗,我错过了什么吗?
为了澄清起见,该练习从字面上说明遵循泊松单向分类(练习的标题:“问题 3 -泊松单向分类模型”),但现在我很难看到这样做的目的。