AIC 和 c 统计量 (AUC) 实际测量的模型拟合有什么区别?

机器算法验证 物流 aic 奥克
2022-01-18 04:06:22

Akaike 信息准则 (AIC) 和 c 统计量(ROC 曲线下的面积)是逻辑回归模型拟合的两个度量。当两种措施的结果不一致时,我无法解释发生了什么。我猜他们正在测量模型拟合的略有不同的方面,但这些具体方面是什么?

我有 3 个逻辑回归模型。模型 M0 有一些标准协变量。模型 M1 将 X1 添加到 M0;模型 M2 将 X2 添加到 M0(因此 M1 和 M2 没有嵌套)。

从 M0 到 M1 和 M2 的 AIC 差异约为 15,表明 X1 和 X2 都提高了模型拟合度,并且幅度大致相同。

c-统计量为:M0,0.70;M1,0.73;M2 0.72。从 M0 到 M1 的 c 统计量差异显着(DeLong et al 1988 的方法),但从 M0 到 M2 的差异不显着,表明 X1 改善了模型拟合,但 X2 没有。

X1 不是常规收集的。X2 应该定期收集,但在大约 40% 的情况下会丢失。我们要决定是开始收集 X1,还是改进 X2 的收集,或者删除这两个变量。

从 AIC 我们得出结论,变量对模型做出了类似的改进。改进 X2 的收集可能比开始收集一个全新的变量 (X1) 更容易,因此我们的目标是改进 X2 收集。但是从 c-statistic 来看,X1 改进了模型而 X2 没有,所以我们应该忘记 X2 并开始收集 X1。

由于我们的建议取决于我们关注的统计数据,因此我们需要清楚地了解他们所测量的差异。

欢迎任何建议。

3个回答

AIC 和 c-statistic 试图回答不同的问题。(近年来还提出了一些 c-statistic 的问题,但我会顺便说一下)

粗略地讲:

  • AIC 告诉您您的模型对特定错误分类成本的拟合程度。
  • AUC 告诉您,您的模型在所有错误分类成本中的平均效果如何。

当您计算 AIC 时,您将给出 0.9 的预测的逻辑视为 1 的预测(即 1 比 0 更可能),但它不必如此。你可以拿你的逻辑分数说“0.95 以上的都是 1,低于 0.95 的都是 0”。你为什么要这样做?好吧,这将确保您仅在您真正有信心时才预测一个。你的误报率会非常低,但你的误报率会飙升。在某些情况下,这并不是一件坏事——如果您要指控某人欺诈,您可能首先要真正确定。此外,如果跟进阳性结果的成本非常高,那么您不需要太多。

这就是为什么它与成本有关。将 1 归类为 0 时会产生成本,将 0 归类为 1 时会产生成本。通常(假设您使用默认设置)逻辑回归的 AIC 指的是两种错误分类相同时的特殊情况昂贵。也就是说,逻辑回归为您提供了正确预测的最佳总数,而没有任何正面或负面的偏好。

使用 ROC 曲线是因为它绘制了真阳性与假阳性的关系,以显示在不同成本要求下使用分类器时分类器的性能。c-统计量的出现是因为任何严格位于另一条之上的 ROC 曲线显然是一个主导分类器。因此,测量曲线下面积作为衡量分类器整体性能的指标是直观的。

所以基本上,如果您在拟合模型时知道您的成本,请使用 AIC(或类似的)。如果您只是构建分数,而不是指定诊断阈值,则需要 AUC 方法(以下关于 AUC 本身的警告)。

那么 c-statistic/AUC/Gini 有什么问题呢?

多年来,AUC 是标准方法,并且仍然被广泛使用,但是它存在许多问题。使它特别吸引人的一件事是它对应于分类等级的 Wilcox 测试。也就是说,它测量了一个类中随机挑选的成员的分数将高于另一类的随机挑选的成员的概率。问题是,这几乎从来都不是一个有用的指标。

几年前,David Hand 公开了 AUC 最关键的问题。(参见下面的参考资料)问题的症结在于,虽然 AUC 确实对所有成本进行了平均,但由于 ROC 曲线的 x 轴是误报率,它分配给不同成本机制的权重因分类器而异。因此,如果您在两个不同的逻辑回归上计算 AUC,则在这两种情况下都不会测量“相同的东西”。这意味着基于 AUC 比较模型几乎没有意义。

Hand 提出了一种使用固定成本加权的替代计算,并将其称为 H 度量 - R 中有一个名为的包hmeasure将执行此计算,我相信 AUC 可以进行比较。

关于 AUC 问题的一些参考资料:

  • 接收器操作特征曲线下的面积何时是分类器性能的适当度量?DJ Hand, C. Anagnostopoulos模式识别字母34 (2013) 492–495

    (我发现这是一个特别容易理解和有用的解释)

引用的手稿在临床诊断中的实际应用中没有任何基础。他有一条 0.5 AUC 的理论曲线,这是一个完美的分类器。他使用了一组真实世界的数据,其中模型将被扔掉,因为它们太糟糕了,并且考虑到测量周围的置信区间(未提供但推断的数据)可能是随机的. 鉴于缺乏真实世界(甚至是合理的模拟)数据,这是一篇空洞的论文。我个人曾参与分析数千名患者中的数千个分类器(具有足够的自由度)。在这种情况下,他的论点是毫无意义的。

他还倾向于使用最高级(在任何情况下都不是一个好兆头),并且会做出没有支持的概括,例如,无法知道成本。在医学领域,有一些成本是可以接受的,例如筛查测试的 10% 阳性预测值,以及每个质量调整生命年 100,000 美元的治疗干预费用。我很难相信在信用评分中,成本并没有被很好地理解。如果他(不清楚)说不同的个体误报和误报带来不同的成本,虽然这是一个非常有趣的话题,但它并不像二元分类器。

如果他的观点是 ROC 形状很重要,那么对于老练的用户来说,这是显而易见的,而不老练的用户需要担心的事情更多,例如,将流行度纳入阳性和阴性预测值。

最后,我无法理解如何不能根据模型的临床(或财务)使用确定的各种现实世界的临界值来判断不同的分类器。显然,将为每个模型选择不同的截止值。这些模型不会仅基于 AUC 进行比较。分类器无关紧要,但曲线的形状很重要。

对我来说,最重要的是,虽然 C 统计量 (AUC) 在比较具有不同自变量的模型时可能会出现问题(类似于 Hand 所说的“分类器”),但它在其他应用中仍然有用。例如,在不同研究人群(数据集)之间比较相同模型的验证研究。如果模型或风险指数/评分在一个人群中显示出高度区分性,而在其他人群中则没有,这可能意味着它通常不是一个很好的工具,但可能在特定情况下是一个很好的工具。