分数因变量:为什么不使用泊松回归?

机器算法验证 计数数据
2022-04-07 20:05:17

在许多情况下,我们对估计具有分数因变量的模型感兴趣。例如,Papke & Wooldridge (1996) http://faculty.smu.edu/millimet/classes/eco6375/papers/papke%20wooldridge%201996.pdf考虑了 401(k) 计划参与率,其中比率定义为PRATE=accountsemplyees. 然后,作者开发了一种 GLM 方法来估计此类模型。查看计数数据文献,我想知道不应该运行泊松回归accounts在同一组回归量上,并作为偏移量employees. 这是否可能取决于绝对数量accounts?

这与建议的重复不同,哪种回归模型最适合用于计数数据?正如我的问题讨论了偏移量/分母的正确位置。

1个回答

此处不使用泊松回归的一个原因是,由于每个员工最多可以拥有一个帐户,因此帐户的数量受员工数量的限制。泊松分布允许帐户数量超过员工数量的非零概率。我的理解是,尽管泊松回归对于许多违反假设的情况都很稳健,但与更合适的方法相比,使用泊松回归至少会降低效率。

那么问题应该是:二项式回归不是更合适吗?(假设参与率相同p对于每个员工,计划的数量y应该分配为Binomial(n,p)在哪里n是员工人数。)IIRC,在这种情况下不能使用二项式回归的原因是员工人数未知;只有参与率本身是已知的。这排除了二项式回归 - 即使它是适当的,也会排除带有偏移的泊松回归。