数据挖掘 - 可视化信息提取中的 F 分数差异 - 吾爱随笔录

我有几个语料库和 NLP 系统（包括这些系统的输出的一些合并集合，组合在并集和交集中），我用它们为语料库中所有文档的每个语料库提取了注释跨度集 {(begin, end)} 和将跨度集与每个语料库各自的黄金标准进行比较，从而获得 F 分数、精度和召回率的标准度量。

我试图定性地评估为什么某些系统在 F 分数上的表现不如特定的集成组合，所以我认为最简单的方法是生成精确召回或 ROC 曲线。

该任务只是一个简单的二元分类：一段文本被注释（标记为 1）或没有注释（标记为 0）。

对于系统预测和黄金标准，语料库中的每个文档都有相同长度的 numpy 向量，因此我计划在尝试生成我的 ROC 曲线时y_true使用这些向量。y_predict

假设我将它们全部绘制在同一张图上，这是观察我的 F 分数行为的好方法吗？如果没有，任何关于更好方法的建议将不胜感激。