在我涉足检测的过程中,我试图了解如何最好地生成接收器操作特征(ROC) 曲线,并且出现了一些问题。
在我的研究中,我发现 ROC 曲线的生成只是真阳性率 (TPR) 与假阳性率 (FPR) 的关系图。自然希望 TPR 为 1,FPR 为 0。我还了解 ROC 曲线上的每个点(具有一个 TPR 和 FPR 坐标的点)对应于一组检测器“设置”(阈值)。在固定一个设置的情况下,我们会将所有阳性“检测”与所有实际的真阳性和真阴性数量进行比较,从而产生 TPR 和 FPR。我的问题如下:
在我看来,我们必须有一个带标签的数据集才能开始这样做。也就是说,我们必须手动或以其他方式检查我们拥有的所有数据,并将它们标记为“是”或“否”。(我意识到这似乎很明显,但我想确认)。这是真的?
与上述内容有些相关 - 如果为了生成正确捕获检测器性能的真实 ROC 曲线,我们必须有“无”数据,那么在我看来,我们必须有“无”数据来捕获几乎所有可能性存在于宇宙中。显然这是不可行的,但是如何真诚地声称检测器确实具有一定的误报率呢?这是最让我困惑的。
探测器具有几乎从不误报但在 y 轴上具有正常外观变化的 ROC 曲线是闻所未闻的吗?换句话说:对于固定的 SNR,检测器在假阳性轴(x 轴)上的方差非常小,但在真阳性轴(y 轴)上的方差更大,这是闻所未闻的吗?
我认为这只是总结了我的问题,谢谢。
编辑编号 1:
我不认为我理解反馈。
理论方面:
我怎样才能对每一种可能性进行统计“建模”,以便我从理论上对其进行表征?例如,假设我有一个检测器可以检测到 10 Hz 信号的存在。输入可以是阳光下的任何东西。也许它的噪音为 10Hz。也许它的 11Hz 并且没有噪音。也许它在线性啁啾或鸟鸣之上的 10.5Hz。也许它的棕色噪音覆盖着人声,覆盖着 60Hz 的电源。一个模型或其中的任何无数组合如何建模?
我不知道我是否可以获得检测器的理论性能,因为很简单,我看不出在任何东西都可以作为您输入的现实场景中这怎么可能!这又回到了第 2 点,由此,一个人怎么可能知道检测器的每一个可能的输入?我可能是错的,所以请告诉我如何。
实用方面:
因此,从这个意义上说,我想我的问题是:我已经有了一个探测器。它接受一个输入向量,并做出一个决定,“是”或“否”。我知道我必须标记我的数据集才能得出真阳性和假阳性率。在这种情况下,在我看来,唯一的可能性是提出一个数据集,该数据集代表了太阳下几乎所有可能的事物,并针对您的探测器进行测试。
我没有得到什么?