如何训练用于命名实体识别的机器学习模型

数据挖掘 机器学习 nlp 命名实体识别
2022-03-14 16:58:45

我找不到任何有关解决 NER 问题的机器学习模型架构的资料。我隐约知道这是一个多类分类问题,但是我们如何格式化我们的输入以输入这样的多类分类器呢?我知道输入必须是带注释的语料库,但是我们如何才能将这对(单词,实体标签)对输入分类器?或者,您如何对此类语料库进行特征工程以输入 ML 模型?或者,一般来说,您如何使用机器学习从头开始训练自定义 NER?

TIA。

1个回答

实际上有很多用于训练 NER 模型的库。

  • 知道这种类型的模型/任务称为序列标记是很有用的,因为它包括预测每个单词的标签,同时考虑到接近目标单词的其他单词。
  • 标准方法是条件随机场 (CRF)有各种库,例如见这个答案
  • 传统上,一种称为 BIO(有时是 IOB)的特定格式(代表Begin、Inside、Outside)用作输入(参见一个非常简短的示例)。这些功能可以通过自定义模式涉及上下文词(有关详细信息,请参阅库的文档)。