我正在开展一个数据科学项目,以在 Instagram 上标记机器人。我收集了很多数据(+80k 用户),现在我必须将它们标记为机器人/合法用户。我已经用不同的技术标记了 20k 用户,但现在我觉得我必须一个一个地标记他们,可能需要几个月的时间。
我可以停下来,说“我对我所拥有的一切都很好”还是这是不好的做法?现在停止也意味着数据的分布与我用于查找机器人而非合法用户的标记技术不同。
我有哪些选择?
我正在开展一个数据科学项目,以在 Instagram 上标记机器人。我收集了很多数据(+80k 用户),现在我必须将它们标记为机器人/合法用户。我已经用不同的技术标记了 20k 用户,但现在我觉得我必须一个一个地标记他们,可能需要几个月的时间。
我可以停下来,说“我对我所拥有的一切都很好”还是这是不好的做法?现在停止也意味着数据的分布与我用于查找机器人而非合法用户的标记技术不同。
我有哪些选择?
您可以研究半监督学习,当您同时拥有标记和未标记数据时,这对于训练模型很有用。半监督方法考虑未标记数据的分布以提高模型的性能。下图应该让您直观地了解未标记数据如何有用。
在另一个方向上,您可以使用目前拥有的标签来训练分类器。然后,使用分类器预测未标记数据的每个标签的概率。按概率对标签进行排序,并手动标记低 (p<0.25)、中 (0.25 < p < 0.75) 和高 (p> 0.75) 概率的小样本。然后,尝试估计您的模型在哪个概率范围内最挣扎。从理论上讲,手动标记属于中等概率范围的案例应该是更好的时间投资,因为这些是您当前模型更不确定的案例。这种和类似的方法属于主动学习的范畴。
简而言之,研究半监督或主动学习。