我得到了一个数据集,其中包含一所高中学生获得的奖项数量,其中获得奖项数量的预测因素包括学生就读的课程类型和数学期末考试的分数。
我想知道是否有人能告诉我为什么线性回归模型在这种情况下可能不适合,以及为什么使用泊松回归会更好?谢谢。
我得到了一个数据集,其中包含一所高中学生获得的奖项数量,其中获得奖项数量的预测因素包括学生就读的课程类型和数学期末考试的分数。
我想知道是否有人能告诉我为什么线性回归模型在这种情况下可能不适合,以及为什么使用泊松回归会更好?谢谢。
关于泊松与正态回归的三点,都与模型规范有关:
预测变量变化的影响
使用像数学测试分数这样的连续预测变量泊松回归(使用通常的对数链接)意味着预测变量的单位变化会导致奖励数量的百分比变化,即数学测试多 10 分与例如 25% 相关联更多奖项。这取决于学生已经预计获得的奖项数量。相比之下,正态回归将多 10 个点与一个固定数量相关联,例如在所有情况下多 3 个奖励。在使用创建它的模型之前,您应该对这个假设感到满意。(我认为这是非常合理的,模下一点。)
与没有奖品的学生打交道
除非真的有很多奖项分布在很多学生身上,否则你的奖项数量大多会很低。事实上,我会预测零通货膨胀,即大多数学生没有得到任何奖励,所以很多零,而一些好学生得到了相当多的奖励。这与 Poisson 模型的假设相混淆,并且至少对 Normal 模型同样糟糕。
如果您有大量数据,那么“零膨胀”或“障碍”模型将是很自然的。这是两个捆绑在一起的模型:一个预测学生是否获得任何奖项,另一个预测如果她获得任何奖项,她将获得多少(通常是某种形式的泊松模型)。我希望所有动作都在第一个模型中。
奖励专有权
最后,关于奖项的一个小点。如果奖励是排他性的,即如果一个学生获得奖励,那么其他学生无法获得奖励,那么你的结果是耦合的;学生 a 的一个计数会降低其他每个学生的可能计数。这是否值得担心取决于奖励结构和学生人数的规模。我会在第一遍时忽略它。
总之,除了非常大的计数之外,泊松轻松地主导了正常,但在大量依赖泊松进行推理之前检查泊松的假设,并准备好在必要时转移到稍微复杂的模型类。
在这种情况下,泊松回归会更合适,因为您的反应是某事的计数。
简而言之,我们模拟单个学生的奖励数量分布来自泊松分布,并且每个学生都有自己的泊松参数。然后,泊松回归将此参数与解释变量相关联,而不是计数。
这比正常的线性回归更好的原因是与错误有关。如果我们的模型是正确的,并且每个学生都有自己的,那么对于给定的我们期望它周围的计数呈泊松分布 - 即不对称分布。这意味着异常高的值并不像异常低那样令人惊讶。
正态线性回归假设平均值周围的正态误差,因此对它们进行同等加权。这就是说,如果一个学生的预期奖励数量为 1,那么他们获得 -2 奖励的可能性与获得 3 奖励的可能性一样:这显然是胡说八道,泊松就是为了解决这个问题。
只要奖励的条件均值在预测变量中是线性的,对预测变量的奖励的普通最小二乘回归将产生一致的参数估计。但这通常是不够的,因为它允许预测的奖励数量为负数(即使对于预测变量的“合理”值),这是没有意义的。人们通常会尝试通过获取奖励的自然对数并使用 OLS 来解决这个问题。但这失败了,因为有些学生没有获得奖励,所以你必须使用类似的东西,但这会产生自己的问题,因为您大概关心奖项,并且重新转换并非易事。
此外,随着预期的奖励数量变得非常大,OLS 应该会因为@Corone 概述的原因而表现得更好。在沃比贡湖,OLS 是必经之路。
如果预期数字很低,有很多零,我会在负二项式模型上使用具有稳健标准误差的泊松。NB 回归对产生系数的一阶条件中出现的方差做出了强有力的假设。如果不满足这些假设,则系数本身可能会受到污染。泊松的情况并非如此。
@corone 提出了很好的观点,但请注意,泊松仅在以下情况下才真正不对称是小。就算 = 10,它非常对称,例如
set.seed(12345)
pois10 <- rpois(1000, 10)
plot(density(pois10))
library(moments)
skewness(pois10)
显示 0.31 的偏度,非常接近 0。
我也喜欢@conjugateprior 的观点。根据我的经验,泊松回归很少能很好地拟合。我通常使用负二项式或零膨胀模型结束。