我正在尝试标记语料库中的词汇。
我已经在语料库上训练了 word2vec 模型
我已经将基于分数相关的单词分组为第一个单词作为关键,其余单词作为单词的 2 元组列表和相对于关键的分数
示例:'coffee'---键值为
[('tea', 0.8139282),
('latte', 0.76456803),
('coffe', 0.7607962),
('lattes', 0.756057),
('starbucks', 0.7158153),
('espresso', 0.71386236),
('mocha', 0.69999266),
('coffees', 0.6816252),
('frappucino', 0.67192864),
('cuppa', 0.66720986),
('cappucino', 0.6664002),
('chai', 0.6623157),
('decaf', 0.65980726),
('frappuccino', 0.65150374),
('venti', 0.6486204),
('expresso', 0.6369579),
('macchiato', 0.6280453),
('scone', 0.62476856),
('sippy', 0.6236704),
('cappuccino', 0.61718297),
('iced', 0.6130485),
('hazelnut', 0.6023698),
('mug', 0.6004759),
'
'
'
'
'
据我所知,咖啡与拿铁、绿茶、浓缩咖啡、星巴克有关。从上述数据中,我想将每个单词标记如下
拿铁 [COHYPO] green_tea [COHYPO] 浓缩咖啡 [HYPO] 星巴克 [相关] tim_horton [相关]
COHYPO- https://en.wiktionary.org/wiki/cohyponym
[HYPO] - https://en.wiktionary.org/wiki/hyponyme
[相关] - 重复这个词
[MORPHO]-形态变体(例如:计算机和计算机)
[Partof]- 表示标注的词是感兴趣词的一部分
我可以解决此问题的任何建议或想法