偏差与皮尔逊拟合优度

机器算法验证 回归 广义线性模型 卡方检验 拟合优度 越轨
2022-03-06 22:14:36

我试图通过使用负二项式回归(负二项式 GLM)来建立一个模型。我有一个相对较小的样本量(大于 300),并且数据没有缩放。我注意到有两种方法可以衡量拟合优度——一种是偏差,另一种是 Pearson 统计量。如何确定使用哪种拟合优度度量?在选择拟合优度度量时,我可以考虑一些标准吗?

1个回答

基于偏差的拟合优度检验是拟合模型与饱和模型之间的似然比检验(其中每个观测值都有自己的参数)。Pearson 的测试是分数测试;如果拟合模型正确,则分数的期望值(对数似然函数的一阶导数)为零,并且您将与零的更大差异作为缺乏拟合的有力证据。该理论在Smyth (2003),“作为分数测试统计的 Pearson 拟合优度统计”,Statistics and science: a Festschrift for Terry Speed中进行了讨论。

在实践中,人们通常依赖于两者对卡方分布的渐近近似——对于负二项式模型,这意味着预期计数不应太小。Smyth 指出,Pearson 检验对模型错误规范更加稳健,因为您只需将拟合模型视为空值,而不必为饱和模型假设特定形式。我从来没有注意到它们之间有太大的区别。

您可能想反映,两者的显着不匹配告诉您您可能已经知道的事情:您的模型不是现实的完美代表。您的样本量越大,您就越有可能被告知这一点。也许一个更密切的问题是您是否可以改进您的模型,以及哪些诊断方法可以帮助您。