我指的是问题及其答案:如何比较从逻辑回归开发的模型的(概率)预测能力?@Clark Chong 和@Frank Harrell 的回答/评论。和问题的自由度在 Hosmer-Lemeshow 测试和评论中。
我读过论文DW Hosmer、T. Hosmer、S. Le Cessie、S. Lemeshow,“Logistic 回归模型的拟合优度检验比较”,医学统计,卷。16, 965-980 (1997)。
阅读后我感到困惑,因为我提到的问题明确要求“(概率)预测能力”,我认为这与上述论文中的拟合优度测试的目标不同:
正如我们大多数人所知,逻辑回归假设解释变量和成功概率之间存在 S 形联系,S 形的函数形式是
在不假装 Hosmer-Lemeshow 检验没有缺点的情况下,我认为我们必须区分(a)“(概率)预测能力”和(b)“拟合优度”的检验。
前者的目标是测试概率是否被很好地预测,而拟合优度测试则测试上面的 S 形函数是否是“正确”函数。更正式地说:
- “概率预测能力测试”的测试有一个说明模型很好地预测了成功概率;
- 而对于拟合优度测试是(参见 Hosmer 等人)上述 S 形函数形式是正确的形式。霍斯默等人。执行模拟,他们发现有能力检测两种与零值的偏差,即链接函数错误或分母中的指数不是线性的。
显然,如果上述函数具有“正确”的函数形式(所以如果测试得出结论我们可以接受对于拟合优度检验),那么预测的概率会很好,...
第一句话
...但是,接受是一个弱结论,如如果我们未能拒绝原假设,会发生什么?.
第一个问题
我最重要的问题/评论是,如果拟合优度被拒绝,那么测试的结论是函数形式不是“正确”的形式,但是,这是否意味着概率没有得到很好的预测?
第二个问题
此外,我想指出 Hosmer 等人的结论。人; (我从摘要中引用):
''当正确模型具有二次项但仅包含线性项的模型已拟合时,对测试性能的检查表明,Pearson 卡方、未加权平方和、Hosmer-Lemeshow 十分位数风险,平滑的残差平方和和 Stukel 的分数检验,当样本量为 100 时,具有超过 50% 的功效来检测与线性的中度偏离,并且对于大小为 500 的样本的这些相同替代方案具有超过 90% 的功效. 当正确模型在二分协变量和连续协变量之间存在交互作用但只有连续协变量模型拟合时,所有检验均无效。对于大小为 100 的样本,检测错误指定链接的能力很差。对于大小为 500 的样本,Stukel' s 分数测试具有最佳功效,但仅超过 50% 才能检测到不对称链接功能。未加权平方和检验检测错误指定的链接函数的能力略低于 Stukel 的分数检验''
我可以由此得出结论,哪个测试具有更大的能力,或者 Hosmer-Lemeshow 具有更小的能力(检测这些特定的异常)?
第二句话
Hosmer 等人的论文。人。我在上面提到过,计算(模拟)检测特定异常的能力(只有在已指定)。在我看来,这并不意味着这些结果可以推广到“所有可能的选择”''?