基于字典的统计NER学习器

数据挖掘 机器学习 命名实体识别
2022-02-23 12:32:41

如果我必须解释当前的 NER 方法,它通常会在字符串中找到模式并创建自己的“词汇表”,可以这么说。

自然地,它会像一个具有庞大数据集的魅力一样,通过辛勤工作和标记实体精心策划。

但是,如果系统首先引入一个包含各个类别的命名实体的字典,然后给出该类别的样本文献或简单的推文,例如,从它们中“学习”这些命名实体如何出现在上下文中,该怎么办。

与基于正则表达式的区别是微妙的,因为在正则表达式中它会尝试匹配字符串和更多的字典大小,更多的规则,然后更多的有用性。

但在这个系统中,它实际上会学习如何用很少的训练集准确地分类“吃苹果”和“吃苹果”,以及在提到水果和公司时语法的微妙之处。

关于它在 CRF++、CRFsuite、Stanford 或任何其他中的实现的一些直觉。

一般免责声明
不是数据科学家。只是 ML 爱好者的一个想法。

1个回答

听起来您在描述使用地名词典和培训,这并不是特别不寻常。例如,请参见此处:

我们如何识别命名实体?一种选择是在适当的名称列表中查找每个单词。例如,对于位置,我们可以使用地名词典或地理词典,例如亚历山大地名词典或盖蒂地名词典。

使用地名词典有权衡;请参阅此处进行一些讨论。

是某人在 CRF++ 中将其用作功能的示例。