具有计数数据的双向 ANOVA

机器算法验证 方差分析 参考 数据转换 计数数据 泊松回归
2022-04-11 23:14:50

我们可以用计数数据报告双向方差分析吗?如果是,您的参考资料是什么?如果不是,为什么?例如:4 级中的因子 A 和 3 级中的因子 B,我们的响应是患者数量。

3个回答

我们可以用计数数据报告双向方差分析吗?

当然可以,更大的问题是你是否应该这样做。

一般来说,您不应该——而是应该针对您可能拥有的特定类型的计数数据进行类似的分析。

如果不是,为什么?

因为它们不满足方差分析的假设。您有异方差性(方差与均值相关)、偏度(计数不能为负,并且在较小的平均计数中,偏度将很大)和离散性(同样,对于较小的平均计数,影响可能很大)。

我们的回答是患者人数

“病人数”在做什么?这个患者数量是在某些总数中具有某些特征(例如在对治疗有反应或表现出某种症状的总暴露中的数量)还是其他?

您可能需要一些二项式或 Poisson GLM(或者可能是负二项式或其他模型更合适),或者您可以将其设置为卡方检验。

也就是说,有时方差分析可以很好地工作。如果计数足够大,上述偏度/接近于 0 的问题不会产生太大影响,并且您主要只是对是否可以拒绝 null 感兴趣,则测试应该接近 null 下的所需显着性水平(异方差应该只在替代方案下出现)。

如果您的计数变量可以建模为泊松分布,则可以使用 GLM---泊松回归或其一些变体。如果分布仅“类似于”泊松,则可以使用准泊松回归或负二项式回归。

或者,在某些情况下(特别是如果您唯一的协变量是组成员身份),您可以在使用方差稳定转换后使用 ANOVA。对于泊松,这是平方根。在今天的大多数情况下,使用广义线性模型(Poisson 或 negbin)比变换更好。对于一些强烈的意见,请参见此处

与 Glen_b 的回答略有不同(尽管我同意他的观点)。

计数数据通常最好使用二项式(存在最大计数)、泊松或负二项式(或其他)等分布进行建模。在这些分布中,均值和方差之间存在关系。ANOVA 模型假设正态分布和等方差,如果“真相”是这些其他分布之一,则两者都被违反。话虽如此,二项式、泊松和负二项式都可以在某些条件下(大样本量和距离边界很远)近似为正态分布,所以如果您的计数足够高(并且由此产生的方差不太不同)然后方差分析模型可能是一个合理的近似值(但其他模型仍然会更好)。