为分类任务获得预训练词嵌入的正确 Word2vec 模型是什么?

数据挖掘 神经网络 word2vec 词嵌入
2022-01-28 00:22:29

我必须使用神经网络来分类某些酒店评论是欺骗性的还是真实的。我还必须使用预训练的词嵌入来馈送神经网络。所以我可以使用 Word2vec 从更大的酒店评论数据集中获取词向量。然而,Word2vec 为这项任务提供了使用连续词袋和连续跳过语法模型的可能性。对于这项特定任务,哪一个通常会更好?

1个回答

我认为这篇文章给出了 CBOW 和 Skip Gram 之间优缺点的总体思路,

关联

根据米科洛夫的说法:

Skip-gram:适用于少量训练数据,甚至可以很好地表示罕见的单词或短语。

CBOW:训练速度比skip-gram快几倍,对频繁词的准确度略高。

所以不看数据,假设你有大量的数据,CBOW 可能是我的赌注。但是,如果您有“欺骗性”和“真实性”的标签,最好同时训练这两个模型,并通过交叉验证使用表现更好的模型。