我有一些 EEG 数据集,我正在针对两个类进行测试。我可以从 LDA 获得一个不错的错误率(类条件分布不是高斯分布,但有相似的尾部和足够好的分离),所以我想绘制 LDA 预测器的 ROC 与其他主题的数据集。
这是针对单个试验测试的预测变量的典型图表:
我尝试了几个不同的包(pROC 和 ROCR),结果是一致的。我的问题是,锐肘是怎么回事?它只是LDA产生的投影的产物,即恰好有一个分类器性能下降的“悬崖”吗?
我有一些 EEG 数据集,我正在针对两个类进行测试。我可以从 LDA 获得一个不错的错误率(类条件分布不是高斯分布,但有相似的尾部和足够好的分离),所以我想绘制 LDA 预测器的 ROC 与其他主题的数据集。
这是针对单个试验测试的预测变量的典型图表:
我尝试了几个不同的包(pROC 和 ROCR),结果是一致的。我的问题是,锐肘是怎么回事?它只是LDA产生的投影的产物,即恰好有一个分类器性能下降的“悬崖”吗?
虽然这个问题是大约 3 年前提出的,但我发现在遇到它并对此感到困惑一段时间后在这里回答它很有用。当您的地面实况输出为 0,1 并且您的预测为 0,1 时,您将得到一个角形弯头。如果您的预测或基本事实是置信度值或概率(例如在 [0,1] 范围内),那么您将得到弯曲的肘部。
我同意约翰的观点,因为尖锐的曲线是由于点的稀缺。具体来说,您似乎使用了模型的二元预测(即 1/0)和观察到的标签(即 1/0)。因此,您有 3 个点,一个假定为 Inf 的截止值,一个假定为 0 的截止值,最后一个假定为 1 的截止值,这是由您的模型的 TPR 和 FPR 提供的,位于锐角你的图表。
相反,您应该使用预测类别(0 到 1 之间的值)和观察到的标签(即 1/0)的概率。然后,这将在图表上为您提供与您拥有的唯一概率数相等的点数(对于 Inf 加一)。因此,如果您有 100 个唯一概率,那么您将在图表上为每个不同的截止点提供 101 个点。
一个完美的 ROC“曲线”将被塑造成一个尖锐的弯曲。你在那里的表现非常接近完美的分离。此外,看起来您缺少制作曲线的点。