逻辑回归中的拟合优度检验;我们要测试哪个“适合”?

机器算法验证 假设检验 物流 预测模型 回归策略 hosmer-lemeshow-test
2022-02-25 23:03:10

我指的是问题及其答案:如何比较从逻辑回归开发的模型的(概率)预测能力?@Clark Chong 和@Frank Harrell 的回答/评论。和问题的自由度χ2在 Hosmer-Lemeshow 测试和评论中。

我读过论文DW Hosmer、T. Hosmer、S. Le Cessie、S. Lemeshow,“Logistic 回归模型的拟合优度检验比较”,医学统计,卷。16, 965-980 (1997)

阅读后我感到困惑,因为我提到的问题明确要求“(概率)预测能力”,我认为这与上述论文中的拟合优度测试的目标不同:

正如我们大多数人所知,逻辑回归假设解释变量和成功概率之间存在 S 形联系,S 形的函数形式是

P(y=1|xi)=11+e(β0+iβixi)

在不假装 Hosmer-Lemeshow 检验没有缺点的情况下,我认为我们必须区分(a)“(概率)预测能力”和(b)“拟合优度”的检验。

前者的目标是测试概率是否被很好地预测,而拟合优度测试则测试上面的 S 形函数是否是“正确”函数。更正式地说:

  1. “概率预测能力测试”的测试有一个H0说明模型很好地预测了成功概率;
  2. 而对于拟合优度测试H0是(参见 Hosmer 等人)上述 S 形函数形式是正确的形式。霍斯默等人。执行模拟,他们发现有能力检测两种与零值的偏差,即链接函数错误或分母中的指数不是线性的。

显然,如果上述函数具有“正确”的函数形式(所以如果测试得出结论我们可以接受H0对于拟合优度检验),那么预测的概率会很好,...

第一句话

...但是,接受H0是一个弱结论,如如果我们未能拒绝原假设,会发生什么?.

第一个问题

我最重要的问题/评论是,如果拟合优度H0被拒绝,那么测试的结论是函数形式不是“正确”的形式,但是,这是否意味着概率没有得到很好的预测?

第二个问题

此外,我想指出 Hosmer 等人的结论。人; (我从摘要中引用):

''当正确模型具有二次项但仅包含线性项的模型已拟合时,对测试性能的检查表明,Pearson 卡方、未加权平方和、Hosmer-Lemeshow 十分位数风险,平滑的残差平方和和 Stukel 的分数检验,当样本量为 100 时,具有超过 50% 的功效来检测与线性的中度偏离,并且对于大小为 500 的样本的这些相同替代方案具有超过 90% 的功效. 当正确模型在二分协变量和连续协变量之间存在交互作用但只有连续协变量模型拟合时,所有检验均无效。对于大小为 100 的样本,检测错误指定链接的能力很差。对于大小为 500 的样本,Stukel' s 分数测试具有最佳功效,但仅超过 50% 才能检测到不对称链接功能。未加权平方和检验检测错误指定的链接函数的能力略低于 Stukel 的分数检验''

我可以由此得出结论,哪个测试具有更大的能力,或者 Hosmer-Lemeshow 具有更小的能力(检测这些特定的异常)?

第二句话

Hosmer 等人的论文。人。我在上面提到过,计算(模拟)检测特定异常的能力(只有在H1已指定)。在我看来,这并不意味着这些结果可以推广到“所有可能的选择”H1''?

1个回答

“拟合优度”有时在某种意义上被用作与明显的模型错误规格“缺乏拟合”相反的意思;有时在另一种意义上是模型的预测性能——预测与观察的匹配程度。Hosmer-Lemeshow 检验首先是针对拟合优度,尽管缺乏拟合的证据表明具有预测性能(GoF 在第二种意义上,通过说 Nagelkerke 的R2或 Brier 分数)可以提高,在您尝试特定改进(通常通过包括交互项,或表示连续预测变量以允许曲线关系的样条或多项式基础)之前,您对于如何或提高多少并不明智使用 logit;有时通过更改链接)。

拟合优度测试旨在对各种替代方案具有合理的功效,而不是针对特定替代品的高功效;因此,人们比较不同测试的效力倾向于采取务实的方法,选择一些被认为对潜在用户特别感兴趣的替代方案(例如,参见经常引用的Stephens (1974),“EDF 拟合优度统计和一些比较”,JASA,69,347 你不能断定一个测试对所有可能的替代方案都比另一个测试更强大,因为它对一些可能的替代方案更强大。