虽然这是我自己的问题,但我也将发布我自己的两分钱作为答案,以便我们增加关于这个问题的观点数量。这里的问题是最初将单参数分布拟合到数据是否明智。当您使用单参数分布(例如 Poisson GLM 或具有固定试验参数的二项式 GLM)时,方差不是自由参数,而是被约束为均值的某个函数。这意味着在您不确定方差是否遵循该分布的结构的任何情况下,都不建议将单参数分布拟合到数据。
将单参数分布拟合到数据几乎总是一个坏主意:数据通常比建议的模型所表明的更混乱,即使有理论上的理由相信特定的单参数模型可能会获得,但数据通常是这样的实际上来自一个参数分布的混合,具有一系列参数值。这通常等同于更广泛的模型,例如允许更大的方差自由度的双参数分布。如下所述,在计数数据的情况下,泊松 GLM 也是如此。
如问题所述,在大多数统计应用中,标准做法是使用至少允许前两个矩自由变化的分布形式。这确保了拟合模型允许数据指示推断的均值和方差,而不是让这些受到模型的人为约束。拥有第二个参数只会在模型中损失一个自由度,与允许从数据中估计方差的好处相比,这是一个很小的损失。当然,可以扩展此推理并添加第三个参数以允许拟合偏度,第四个参数以允许拟合峰度等。
除了一些极小的例外,泊松 GLM 是一个糟糕的模型:根据我的经验,拟合泊松分布来计算数据几乎总是一个坏主意。对于计数数据,数据中的方差相对于泊松分布“过度分散”是非常常见的。即使在理论指向泊松分布的情况下,通常最好的模型是泊松分布的混合,其中方差成为自由参数。实际上,在计数数据的情况下,负二项分布是泊松混合,其速率参数具有伽马分布,因此即使有理论上的理由认为计数是根据泊松分布的过程到达的,但通常存在“过度分散”并且负二项式分布拟合得更好的情况。
拟合泊松 GLM 来计算数据,然后进行统计测试以检查“过度分散”的做法是不合时宜的,而且几乎不是一个好的做法。在其他形式的统计分析中,我们不是从一个二参数分布开始,任意选择一个方差限制,然后测试这个限制以试图从分布中消除一个参数。通过这种方式,我们实际上创建了一个笨拙的混合过程,包括用于模型选择的初始假设检验,然后是实际模型(泊松或更广泛的分布)。在许多情况下都表明,这种从初始模型选择测试创建混合模型的做法会导致整体模型不佳。
使用类似混合方法的类似情况是均值差的 T 检验。过去统计课程会建议首先使用Levene 的测试(或者甚至只是一些更糟糕的“经验法则”)来检查两个总体之间的方差是否相等,然后如果数据“通过”这个测试,你会使用假设方差相等的学生 T 检验,如果数据“未通过”检验,那么您将改用 Welch 的 T 检验。这实际上是一个非常糟糕的程序(例如,参见此处和此处)。最好只使用后一种检验,它不对方差做任何假设,而不是创建一个笨拙的复合检验,将初步假设检验挤在一起,然后用它来选择模型。
对于计数数据,您通常会通过拟合二参数模型(例如负二项式或准泊松模型)获得良好的初始结果。(注意后者不是真实分布,但它仍然给出了一个合理的双参数模型。)如果需要任何进一步的概括,通常是添加零膨胀,其中有过多的零在数据中。限制为 Poisson GLM 是一种人为且毫无意义的模型选择,并且通过测试过度分散并没有变得更好。
好的,现在这里有一些小例外:上述唯一真正的例外是两种情况:
(1)你有极强的先验理论理由相信单参数分布的假设得到满足,部分分析是用数据检验这个理论模型;或者
(2) 出于其他(奇怪的)原因,您分析的目的是对数据的方差进行假设检验,因此您实际上希望将这个方差限制在这个假设的限制范围内,然后检验这个假设。
这些情况非常罕见。只有当对数据生成机制有很强的先验理论知识时,它们才会出现,并且分析的目的是测试这个基础理论。这可能是在严格控制的条件下(例如,在物理学中)生成数据的极其有限范围的应用中的情况。