使用 Word2vec 模型注释词汇表

数据挖掘 机器学习 nlp gensim
2022-02-17 19:10:14

我正在尝试标记语料库中的词汇。

  1. 我已经在语料库上训练了 word2vec 模型

  2. 我已经将基于分数相关的单词分组为第一个单词作为关键,其余单词作为单词的 2 元组列表和相对于关键的分数

示例:'coffee'---键值为

[('tea', 0.8139282),
 ('latte', 0.76456803),
 ('coffe', 0.7607962),
 ('lattes', 0.756057),
 ('starbucks', 0.7158153),
 ('espresso', 0.71386236),
 ('mocha', 0.69999266),
 ('coffees', 0.6816252),
 ('frappucino', 0.67192864),
 ('cuppa', 0.66720986),
 ('cappucino', 0.6664002),
 ('chai', 0.6623157),
 ('decaf', 0.65980726),
 ('frappuccino', 0.65150374),
 ('venti', 0.6486204),
 ('expresso', 0.6369579),
 ('macchiato', 0.6280453),
 ('scone', 0.62476856),
 ('sippy', 0.6236704),
 ('cappuccino', 0.61718297),
 ('iced', 0.6130485),
 ('hazelnut', 0.6023698),
 ('mug', 0.6004759),
'
'
'
'
'

据我所知,咖啡与拿铁、绿茶、浓缩咖啡、星巴克有关。从上述数据中,我想将每个单词标记如下

拿铁 [COHYPO] green_tea [COHYPO] 浓缩咖啡 [HYPO] 星巴克 [相关] tim_horton [相关]

COHYPO- https://en.wiktionary.org/wiki/cohyponym

[HYPO] - https://en.wiktionary.org/wiki/hyponyme

[相关] - 重复这个词

[MORPHO]-形态变体(例如:计算机和计算机)

[Partof]- 表示标注的词是感兴趣词的一部分

我可以解决此问题的任何建议或想法

1个回答

WordNet无疑是探索这项任务的有趣资源。它可能无法涵盖您的所有词汇,但我想不出任何其他方法来捕获单词之间的细粒度语义关系。