我阅读了 Robert (Munro) Monarch 关于主动学习的书“Human-in-the-Loop Machine Learning”。我不理解以下方法来获取一组不同的项目供人类标记:
- 获取未标记数据中的每个项目,并计算它与训练数据中已有项目的平均单词匹配数
- 按平均匹配对项目进行排名
- 对平均匹配次数最少的项目进行抽样
- 将该项目添加到“已标记”数据中并重复 1-3 直到我们的样本足以进行一次人工审查
目前尚不清楚如何计算平均单词匹配数。
我阅读了 Robert (Munro) Monarch 关于主动学习的书“Human-in-the-Loop Machine Learning”。我不理解以下方法来获取一组不同的项目供人类标记:
- 获取未标记数据中的每个项目,并计算它与训练数据中已有项目的平均单词匹配数
- 按平均匹配对项目进行排名
- 对平均匹配次数最少的项目进行抽样
- 将该项目添加到“已标记”数据中并重复 1-3 直到我们的样本足以进行一次人工审查
目前尚不清楚如何计算平均单词匹配数。
这个想法是找到在当前标记数据中没有很好地表示的文档。第一点确实有点含糊,大概可以用不同的方式来解释。我的解释是这样的: