我有几个语料库和 NLP 系统(包括这些系统的输出的一些合并集合,组合在并集和交集中),我用它们为语料库中所有文档的每个语料库提取了注释跨度集 {(begin, end)} 和将跨度集与每个语料库各自的黄金标准进行比较,从而获得 F 分数、精度和召回率的标准度量。
我试图定性地评估为什么某些系统在 F 分数上的表现不如特定的集成组合,所以我认为最简单的方法是生成精确召回或 ROC 曲线。
该任务只是一个简单的二元分类:一段文本被注释(标记为 1)或没有注释(标记为 0)。
对于系统预测和黄金标准,语料库中的每个文档都有相同长度的 numpy 向量,因此我计划在尝试生成我的 ROC 曲线时y_true
使用这些向量。y_predict
假设我将它们全部绘制在同一张图上,这是观察我的 F 分数行为的好方法吗?如果没有,任何关于更好方法的建议将不胜感激。