数据挖掘 - 基于字典的统计NER学习器 - 吾爱随笔录

如果我必须解释当前的 NER 方法，它通常会在字符串中找到模式并创建自己的“词汇表”，可以这么说。

自然地，它会像一个具有庞大数据集的魅力一样，通过辛勤工作和标记实体精心策划。

但是，如果系统首先引入一个包含各个类别的命名实体的字典，然后给出该类别的样本文献或简单的推文，例如，从它们中“学习”这些命名实体如何出现在上下文中，该怎么办。

与基于正则表达式的区别是微妙的，因为在正则表达式中它会尝试匹配字符串和更多的字典大小，更多的规则，然后更多的有用性。

但在这个系统中，它实际上会学习如何用很少的训练集准确地分类“吃苹果”和“吃苹果”，以及在提到水果和公司时语法的微妙之处。

关于它在 CRF++、CRFsuite、Stanford 或任何其他中的实现的一些直觉。

一般免责声明
不是数据科学家。只是 ML 爱好者的一个想法。