如果我必须解释当前的 NER 方法,它通常会在字符串中找到模式并创建自己的“词汇表”,可以这么说。
自然地,它会像一个具有庞大数据集的魅力一样,通过辛勤工作和标记实体精心策划。
但是,如果系统首先引入一个包含各个类别的命名实体的字典,然后给出该类别的样本文献或简单的推文,例如,从它们中“学习”这些命名实体如何出现在上下文中,该怎么办。
与基于正则表达式的区别是微妙的,因为在正则表达式中它会尝试匹配字符串和更多的字典大小,更多的规则,然后更多的有用性。
但在这个系统中,它实际上会学习如何用很少的训练集准确地分类“吃苹果”和“吃苹果”,以及在提到水果和公司时语法的微妙之处。
关于它在 CRF++、CRFsuite、Stanford 或任何其他中的实现的一些直觉。
一般免责声明
不是数据科学家。只是 ML 爱好者的一个想法。