如何获得复合词的语义词嵌入?

数据挖掘 机器学习 单词
2022-03-08 16:39:35

我需要为“电子工程师”或“Microsoft Excel”等复合术语构建语义词嵌入表示。一种方法是使用标准的预训练模型对单词进行平均,但是,由于我有自己领域的语料库,是否有更好的方法?

更准确地说:

我拥有的数据是数百万个文档的语料库。每个文档大约半页,包含这些复合术语。但是,可能有复合词未包含在语料库中。

谢谢

1个回答

如果您想要一个准确的答案,请提供一个准确的问题,即定义您拥有哪些数据以及您到底想要什么。

也就是说,一般来说,您需要一个包含这些复合术语的文本数据集。如何处理复合词本身就是一个完整的科学领域,但既然你在谈论语义词嵌入,我建议你看看文章Distributed Representations of Words and Phrases and their Compositionality介绍 word2vec 的人在这里描述了一种从单词表示到短语表示的简单方法,顺便说一句,它提供了一种将复合术语合并为单个术语的方法。单词“microsoft excel”变成了“microsoft_excel”并获得了自己独特的嵌入。

如果您想要一个 python 实现,请查看gensim.models.phrase类。这与上一篇文章中介绍的工作相同。