我正在寻找使用 google 的 word2vec 实现来构建命名实体识别系统。我听说具有通过结构反向传播的递归神经网络非常适合命名实体识别任务,但我一直无法为该类型的模型找到合适的实现或合适的教程。因为我正在使用非典型语料库,NLTK 和类似工具中的标准 NER 工具表现非常糟糕,看起来我必须训练自己的系统。
简而言之,有哪些资源可以解决这类问题?是否有可用的标准递归神经网络实现?
我正在寻找使用 google 的 word2vec 实现来构建命名实体识别系统。我听说具有通过结构反向传播的递归神经网络非常适合命名实体识别任务,但我一直无法为该类型的模型找到合适的实现或合适的教程。因为我正在使用非典型语料库,NLTK 和类似工具中的标准 NER 工具表现非常糟糕,看起来我必须训练自己的系统。
简而言之,有哪些资源可以解决这类问题?是否有可用的标准递归神经网络实现?
最近的两篇论文使用称为 CharWNN 的深度学习架构来解决这个问题。CharWNN 最初用于在英语语料库的词性 (POS) 标记上获得最先进的结果(没有手工制作的特征)。
同一作者的第二篇论文使用相同(或相似)的架构来预测一个词是否属于 10 个命名实体类,具有明显的最新结果。
试试这个。这有一个 Word2Vec 的实现,而不是用于 NER 和其他 NLP 任务的词袋。
以下是关于如何将词向量用于 NER 的一些想法,它采用了一种几乎无监督的以 word2vec 为中心的方法。
findCluster(['joy', 'surprise', 'disgust', 'trust', 'fear', 'sadness', 'anger', 'anticipation'])
可能会返回一个包含数百个主要与情感相关的单词的列表。如果您将此列表命名为“情感”,那么您就有一个基于向量空间定义的命名概念“情感”。