实体识别是否属于分类问题?

数据挖掘 分类 nlp 支持向量机 命名实体识别
2022-03-05 20:33:48

我想从文本中提取命名实体,但我不知道这是否属于分类。如果它属于分类,那么如何准备类来识别文本中的实体。(是否收集了一些组织名称和人员名称并将它们用作我的训练数据集可以解决问题吗?)

2个回答

简而言之,命名实体识别 (NER) 是一个多类结构化预测(分类)问题,因此您有一个单词序列,并且您希望大多数时间都使用这些标签来标记每个单词(start-of-a-person -name, continue-of-a-person-name, start-of-an-org-name, continue-of-an-org-name, start-of-a-location-name, continue-of-a-location -名称,其他)。请注意,这些不是唯一的类,也可以使用具有不同粒度的类。

如果你想用 SVM 解决这个问题,你可以使用 StructSVM 或 SVM 的其他变体进行结构预测。尽管此任务的通用基线使用最大熵(Maxent)(对数线性)模型。

命名实体识别可以看作是一个多类分类问题。需要一个大型数据集来训练一个模型(最好是贝叶斯)来识别不同的命名实体。您可以使用词嵌入(如 google word2vec)来准备您的训练集。此外,如果您想完成工作,可以尝试使用 IBM Bluemix AlchemyAPI 进行命名实体提取。