分类活动公告

数据挖掘 分类 nlp
2022-03-12 16:09:01

我想训练一个分类器来发现可以发现宣布事件的文章的新闻文章。问题是我没有用于此任务的大型预标记数据集(我只有 200 个示例)。所以这是我的两个问题:

  1. 您是否听说过为此类任务标记的训练集
  2. 我听说很少有镜头学习可以帮助用很少的例子训练分类器,它是否适用于这种情况,是否有任何图书馆/阅读你会推荐。

提前致谢

1个回答

在以下情况下可以考虑半监督学习,特别是主动学习:

  • 一般的半监督设置包括通过将最初的小训练集迭代地应用于未标记的实例来训练模型。有多种方法可以最大程度地降低在错误分类实例上训练模型的风险。
  • 主动学习是半监督学习的一种变体,其中模型向人类专家查询注释,但实例是经过仔细选择的,以尽量减少人工。
  • 还有bootstrapping,将重点放在正实例上:将原始模型应用于未标记的数据,手动注释仅预测为正的实例(仅在正类远小于负类的情况下有用)。