识别文本数据中注释的异常值

数据挖掘 机器学习 nlp 注解 主动学习
2022-02-28 04:59:48

我阅读了 Robert (Munro) Monarch 关于主动学习的书“Human-in-the-Loop Machine Learning”。我不理解以下方法来获取一组不同的项目供人类标记:

  1. 获取未标记数据中的每个项目,并计算它与训练数据中已有项目的平均单词匹配数
  2. 按平均匹配对项目进行排名
  3. 对平均匹配次数最少的项目进行抽样
  4. 将该项目添加到“已标记”数据中并重复 1-3 直到我们的样本足以进行一次人工审查

目前尚不清楚如何计算平均单词匹配数。

1个回答

这个想法是找到在当前标记数据中没有很好地表示的文档。第一点确实有点含糊,大概可以用不同的方式来解释。我的解释是这样的:

  • 对于未标记数据中的每个文档相同的单词数之间的“匹配分数” dudldudl
    • 注意:我认为应该对这个值进行归一化,例如使用重叠系数请注意,也可以使用其他相似性度量,例如 cosine-TFIDF。
  • 作为上述步骤的输出,对于单个文档 ,可以为每个标记的文档获得一个“匹配分数”。的“平均匹配” dudu