命名实体识别 (NER) 功能

数据挖掘 机器学习 分类 nlp 特征选择 命名实体识别
2021-10-11 15:57:24

我是命名实体识别的新手,我在理解此任务中使用什么/如何使用功能时遇到了一些麻烦。

到目前为止,我读过的一些论文提到了使用的特性,但并没有真正解释它们,例如在 CoNLL-2003 共享任务简介:语言独立命名实体识别中,提到了以下特性:

参与 CoNLL-2003 共享任务的 16 个系统使用的主要特征按英语测试数据的性能排序。Aff:词缀信息(n-grams);bag:词袋;cas:全球病例信息;chu:块标签;doc:全局文档信息;gaz:地名录;lex:词汇特征;ort:正字法信息;pat:正交模式(如 Aa0);pos:词性标签;pre:之前预测的NE标签;quo:标记单词在引号之间的标志;tri:触发词。

但是,我对其中的一些感到有些困惑。例如:

  • 词袋不应该是一种生成特征的方法(每个词一个)吗?BOW 本身怎么可能是一个特征或者这仅仅是意味着我们在 BOW 中的每个单词都有一个特征,除了提到的所有其他特征?
  • 地名录怎么能成为特色?
  • POS 标签如何准确地用作特征?我们不是每个单词都有一个 POS 标签吗?每个对象/实例不是“文本”吗?
  • 什么是全局文档信息?
  • 什么是特征触发词?

我认为我在这里所需要的只是查看一个示例表,其中每个功能都作为列,并查看它们的值以了解它们的实际工作方式,但到目前为止,我还没有找到一个易于阅读的数据集。

有人可以澄清或指出一些正在使用的这些功能的解释或示例吗?

1个回答

NER 算法中标记的特征通常是二进制的。即特征存在或不存在。例如,一个记号(比如“你好”这个词)都是小写的。因此,这是该词的一个特征。

您可以将功能命名为“IS_ALL_LOWERCASE”。

现在,对于 POS 标签,让我们使用“make”这个词。它是一个动词,因此特征“IS_VERB”是该词的特征。

地名词典可用于生成特征。gazatter 中一个词的存在(或不存在)是一个有效的特征。示例:“约翰”一词出现在人名地名录中。所以“IS_PERSON_NAME”可以是一个特征。