您什么时候倾向于使用 ROC 曲线而不是其他一些测试来确定某些测量结果对结果的预测能力?
在处理离散结果(活/死,存在/不存在)时,是什么让 ROC 曲线比卡方曲线更强大或更弱?
您什么时候倾向于使用 ROC 曲线而不是其他一些测试来确定某些测量结果对结果的预测能力?
在处理离散结果(活/死,存在/不存在)时,是什么让 ROC 曲线比卡方曲线更强大或更弱?
ROC 函数(不一定是曲线)允许您评估特定统计模型(由一个或一组预测变量组成)提供的辨别能力。
ROC 的一个主要考虑因素是模型预测不仅源于模型根据预测变量提供的证据进行区分/做出预测的能力。此外,还有一个响应标准,它定义了模型预测响应需要多少证据,以及这些响应的结果是什么。为响应标准建立的值将极大地影响模型预测,并最终影响其将犯的错误类型。
考虑一个具有预测变量和响应标准的通用模型。这个模型试图通过回答是或否来预测 X 的存在。所以你有以下混淆矩阵:
**X present X absent**
**Model Predicts X Present** Hit False Alarm
**Model Predicts X Absent** Miss Correct Rejection
在这个矩阵中,您只需要考虑 Hits 和 False Alarms 的比例(因为其他的可以从这些中推导出来,因为它们必须有一些到 1)。对于每个响应标准,您将拥有不同的混淆矩阵。错误(未命中和误报)是负相关的,这意味着使误报最小化的响应标准会最大化漏报,反之亦然。信息是:没有免费的午餐。
因此,为了了解模型区分案例/做出预测的能力,独立于建立的响应标准,您绘制了在可能的响应标准范围内产生的命中率和错误率。
你从这个图中得到的是 ROC 函数。函数下的面积提供了模型辨别能力的无偏和非参数度量。该措施非常重要,因为它没有任何可能由响应标准产生的混淆。
第二个重要方面是,通过分析函数,可以定义哪些响应标准更适合您的目标。您要避免哪些类型的错误,以及哪些错误是可以的。例如,考虑 HIV 测试:它是一种查找某种证据(在本例中为抗体)并根据证据与响应标准的比较进行区分/预测的测试。此响应标准通常设置得非常低,以便您最大限度地减少未命中。当然,这会导致更多的误报,这是有成本的,但与未命中相比,成本可以忽略不计。
使用 ROC,您可以独立于响应标准来评估某些模型的辨别能力,并且还可以根据您所测量的任何内容的需求和限制建立最佳响应标准。像 hi-square 这样的测试在这方面根本没有帮助,因为即使您测试预测是否处于机会水平,许多不同的命中 - 错误警报对也与机会水平一致。
一些框架,如信号检测理论,先验地假设可用于辨别的证据具有特定分布(例如,正态分布或伽马分布)。当这些假设成立(或非常接近)时,可以使用一些非常好的措施来让您的生活更轻松。
希望这有助于您了解 ROC 的优势
当预测变量是连续的并且结果是离散的时使用 ROC 曲线,因此卡方检验不适用。实际上,ROC 分析在某种意义上相当于 Mann-Whitney 检验:曲线下面积为 P(X>Y),即 MW 检验所检验的量。然而 Mann-Whitney 分析并不强调选择截止值,而这是 ROC 分析的重点。此外,ROC 曲线通常仅用作协变量预测能力的直观显示。
最短的答案是,传统的信号检测测试仅在 ROC(接收器工作特性)上为您提供一个点,而曲线允许您通过一系列值查看响应。标准和 d' 可能会随着整个曲线的移动而移动。这就像通过选择两类预测变量生成的 t 检验与通过查看每个预测变量的参数操作生成的两条回归线之间的差异。
如果您对进一步的参考资料感兴趣,可以在 KH Zou 的网站Receiver Operating Characteristic (ROC) 文献研究上找到大量论文列表。
当人们对比较不同分类器的性能感兴趣时,也会使用 ROC 曲线,在生物医学研究和生物信息学中具有广泛的应用。