在我的数据中,我有一个类变量,表示为。此类变量值为(二进制)。几乎所有对的观测值都是 0(接近 100%,更准确地说是 97%)。我想对不同的分类模型进行“性能”测试(可能是准确性)。我害怕发生的是,如果我有一个总是将任何观察分类到 0 类的分类模型,那么该模型的准确率将达到 97%(即使它从不考虑任何其他变量)。
对处理非常罕见事件的数据的分类模型是否有任何众所周知的性能测试?
在我的数据中,我有一个类变量,表示为。此类变量值为(二进制)。几乎所有对的观测值都是 0(接近 100%,更准确地说是 97%)。我想对不同的分类模型进行“性能”测试(可能是准确性)。我害怕发生的是,如果我有一个总是将任何观察分类到 0 类的分类模型,那么该模型的准确率将达到 97%(即使它从不考虑任何其他变量)。
对处理非常罕见事件的数据的分类模型是否有任何众所周知的性能测试?
我想到了几种可能性。
查看整体命中率通常不是一个好主意,因为如果不同类的性能不同,这将取决于测试集的组成。因此,至少,您应该指定(并证明)测试数据中类的相对频率,以便得出有意义的值。
其次,正如@Shorack 已经说过的,指定哪些类型的错误是多么重要。通常,分类器需要满足某些性能标准才能有用(并且总体准确度很少是适当的衡量标准)。有考虑到不同类别和不同类型的错误分类的敏感性、特异性、正和负预测值等措施。您可以说这些措施回答了有关分类器的不同问题:
这些问题通常允许制定分类器为了有用而必须需要的规范。
从分类器的实际应用的角度来看,预测值通常更重要:它们以预测为条件,这是您在应用分类器时所处的情况(患者通常对知道测试是识别患病病例,而是识别所述诊断正确的可能性)。但是,为了正确计算它们,您需要知道分类器用于总体中不同类别的相对频率(似乎您有这些信息 - 所以没有什么可以阻止您查看)。
您还可以查看正面或负面预测给您带来的信息增益。这是通过正负似然比、LR+和LR-来衡量的。简而言之,他们会告诉您预测会在多大程度上改变所讨论班级的几率。(有关更详细的说明,请参阅我的答案)
对于您的普通分类器,情况如下所示:我将使用“0”类作为有问题的类,因此“正”表示“0”类。在 100 个案例中,有 100 个被预测为阳性(属于 0 类)。其中 97 个确实有,3 个没有。0 级的敏感性为 100%(所有 97 个真正属于 0 级的病例均被识别),特异性为 0(其他病例均未识别)。阳性预测值(假设 97:3 相对频率具有代表性)为 97%,由于没有发生阴性预测,因此无法计算阴性预测值。
现在 LR⁺ 和 LR⁻ 是您乘以案例属于正类(“0”)的几率的因素。LR⁺为 1意味着正面预测没有给您任何信息:它不会改变赔率。所以这里你有一个度量,它清楚地表达了你的平凡分类器没有添加任何信息的事实。
完全不同的想法方向:你提到你想评估不同的分类器。这听起来有点像分类器比较或选择。我在上面讨论的措施的警告是,如果您在“硬”类标签上评估它们,它们会受到非常高的随机不确定性(意味着您需要大量测试用例)。如果您的预测主要是连续的(度量,例如后验概率),您可以使用相关度量来查看相同类型的问题,但不使用案例的分数,而是使用连续度量,请参阅此处。这些也将更适合检测预测中的微小差异。
(@FrankHarrell 会告诉你你需要“正确的评分规则”,所以这是另一个要记住的搜索词。)
首先:所有命中和所有未命中都同样重要吗?如果是这样,那么你的空模型得分那么好就没有错:它只是一个很好的解决方案。
如果您发现在预测 1 时具有良好的性能很重要,您可以改用 F-measure。它基本上是召回率(实际 1 的哪一部分被预测为 1)和精度(预测的 1 的哪一部分实际上是 1)的调和平均值。要使模型在此度量上得分高,它需要:
它需要同时进行。即使您的模型仅以几乎完美的方式完成了 2 个中的一个,但如果它不满足其他要求,它的得分也会很低。 https://en.wikipedia.org/wiki/F1_score
我很高兴@cbeleites 打开了门......的特殊情况下恰好等于 ROC 区域 -index是预测歧视的一个很好的总结。ROC 曲线本身具有很高的墨:信息比,但曲线下的面积,因为它等于一致性概率,所以有许多很好的特征,其中之一是它与的流行度无关,因为它的条件是。它不太合适(使用广义度量或似然比来实现)并且不够敏感,无法用于比较两个模型,它是对单个模型的一个很好的总结。
接收器操作特征 (ROC) http://en.wikipedia.org/wiki/Receiver_operating_characteristic曲线和相关计算(即曲线下面积-AUC)是常用的。基本上你想象你的分类器给出一个连续的响应(例如在 0 和 1 之间)并且你绘制灵敏度与误报率(1-特异性),因为决策阈值在 0 和 1 之间变化。这些是专门为罕见事件设计的(发现敌人飞机?)。