您好,我正在构建一个用于文本旋转的 python 程序。我读过有关 GloVe、word2vec、doc2vec 或 text2vec 的信息。我知道他们所做的是将每个单词表示为语义向量。
所以我想如果我训练一个 GloVe,我可以用它来寻找同义词,还是更多?
编辑:我想出了一个策略:
- 首先我训练一个 doc2vec 模型。目标是建立短语的语义向量
- 然后我使用我原来的段落输入。我一个字一个字地用同义词(由 nltk 或其他同义词 db 提供)随机更改它。在最终旋转一个单词之前,我计算了更改段落的 doc2vec 并计算了原始段落矢量化的距离。如果距离很小,我只会更改同义词。
你觉得这听起来如何?