使用 ML 辅助人类注释是否存在科学问题?
我有一个 3 类未标记数据集,其中 500 个元素中只有 1 个属于感兴趣的 2 个类。
对于未标记数据的所有元素,标签并不是很容易辨别,但是由于多数类的大多数元素很容易被简单的 NN 检测到,它可以用来过滤掉多数类的大多数元素,从而将数字降低到大约 100 分之一,并将人工注释器的有效性时间提高 50 倍。标记的数据集将用于训练、测试和验证分类器。
但是,我可以预见从学术角度来看这可能会导致问题的原因:
- 如果注释数据由于在人工注释之前使用的 ML 中的偏差而无法代表,则分类器可能难以泛化
- 使用不基于人工提供的合理规则的 ML 数据清理器,在数据分析过程的开头放置了一个黑匣子
- 仅注释一小部分高度流行的类会使数据集非常有选择性,这是否会引起对滥用这种偏见的批评(即操纵期望的假设)
赞赏所有想法