数据挖掘 - 识别文本数据中注释的异常值 - 吾爱随笔录

数据挖掘机器学习 nlp 注解主动学习

2022-02-28 04:59:48

我阅读了 Robert (Munro) Monarch 关于主动学习的书“Human-in-the-Loop Machine Learning”。我不理解以下方法来获取一组不同的项目供人类标记：

获取未标记数据中的每个项目，并计算它与训练数据中已有项目的平均单词匹配数

按平均匹配对项目进行排名

对平均匹配次数最少的项目进行抽样

将该项目添加到“已标记”数据中并重复 1-3 直到我们的样本足以进行一次人工审查

目前尚不清楚如何计算平均单词匹配数。

1个回答

这个想法是找到在当前标记数据中没有很好地表示的文档。第一点确实有点含糊，大概可以用不同的方式来解释。我的解释是这样的：

对于未标记数据中的每个文档相同的单词数。和之间的“匹配分数” 。 $d_u$ $d_l$ $d_u$ $d_l$
- 注意：我认为应该对这个值进行归一化，例如使用重叠系数。请注意，也可以使用其他相似性度量，例如 cosine-TFIDF。
作为上述步骤的输出，对于单个文档，可以为每个标记的文档获得一个“匹配分数”。的“平均匹配” 。 $d_u$ $d_u$

其它你可能感兴趣的问题