我想知道计算 OLS(不是泊松)的 IRR 是否有意义,但 OLS 是使用对数转换数据完成的?我有一组粗略的死亡率数据(我仍在争论它们是计数数据(因为它们毕竟是基于计数的)还是连续数据(因为它们不是整数),我已经对它们进行了建模使用泊松,但只是好奇如果我记录粗利率然后执行稳健的线性回归会发生什么......但我想通过 IRR 比较这两种方式......
欢迎任何建议,例如,如果我真的不应该首先记录粗率......谢谢!
我想知道计算 OLS(不是泊松)的 IRR 是否有意义,但 OLS 是使用对数转换数据完成的?我有一组粗略的死亡率数据(我仍在争论它们是计数数据(因为它们毕竟是基于计数的)还是连续数据(因为它们不是整数),我已经对它们进行了建模使用泊松,但只是好奇如果我记录粗利率然后执行稳健的线性回归会发生什么......但我想通过 IRR 比较这两种方式......
欢迎任何建议,例如,如果我真的不应该首先记录粗率......谢谢!
好吧,如果您的分子直接解释为计数,那么泊松回归和对数转换结果线性回归对于相同的参数都是一致的。在这种情况下,唯一的差异是观测值的加权方式(见第 2 段)。如果您的结果是比率并且您测量了(可变)分母(例如 1-3gs 活检肿瘤或 1-20 ccs 血液),您需要使用一些替代方法来解释两组中的各种权重差异。在线性回归和泊松回归中,这都是以偏移的形式出现的。我很好奇这是否应该成为您的问题的考虑因素。
在 OLS 中,均值与方差无关(在经典假设下),因此您的拟合模型将具有最小平方残差,这在很大程度上是由大计数驱动的。在 Poisson GLM 中,大计数通过逆方差重新加权显着降低。使用一个或多个散点图(取决于调整变量的数量)和拟合曲线检查数据分布确实是一个非常重要的考虑因素。您肯定需要验证高杠杆率/高影响力的观察结果,以验证您提出的替代建模方法。
使用稳健标准误差(稳健回归的一种特殊形式)并不假设均值与方差无关,但它确实使用了这样的工作概率模型,因此虽然稳健标准误差是一致的,但您的点估计值将不稳定,并且您的推理的功效将较低(比您可以为数据假设更好的工作概率模型时)。
尽管R在泊松 GLM 中警告您有关非整数计数,但有很多理智的回归模型,特别是在生态学中,其中非整数泊松结果出现,例如来自各个流域的一立方米采样水中的浮游生物浓度,或流式细胞术评估活检肿瘤组织中的 mRNA 浓度。