词嵌入/Word2vec 用于 POS 标记

数据挖掘 神经网络 nlp 深度学习 rnn word2vec
2021-09-27 16:48:42

我正在使用深度学习方法构建实体检测和关系分类方法,该方法需要 POS 标签和实体标签的矢量表示。我熟悉词嵌入方法,但我不知道以下问题的答案:

  • 如何将 pos 标签转换为矢量表示(比如 20 dim)
  • 如何将词嵌入和词嵌入结合在一起来构建分类器。

在 Cross validate community 中提出了类似的问题,但我找不到答案。这是问题的链接: https ://stats.stackexchange.com/questions/238016/deep-learning-word-embedding-with-parts-of-speech

研究论文链接: https ://arxiv.org/abs/1601.00770

1个回答

可以使用 pos 标签序列轻松训练 Pos 标签的 Word Embedding。有很多方法可以获得训练好的模型。我是通过 gensim 的 word2vec api 做到的。这是它的链接: https ://radimrehurek.com/gensim/models/word2vec.html

此外,如果您想要内存高效的解决方案,radim(gensim 的创建者)提供了一个很棒的教程:https ://rare-technologies.com/word2vec-tutorial/

您只需要传递训练数据的 pos 序列、生成的向量大小、最小频率计数等。您可以查看 api 的文档以获取更多详细信息。