较小数据集的 Word2Vec 替代方案

数据挖掘 机器学习 神经网络 word2vec
2021-10-13 02:33:33

我希望使用Word2Vec对文档进行聚类并按主题对其进行分类。但是,似乎我需要一个重要的数据集[1 , 2]来完成这样的任务。

我有一个包含数千(而不是数百万)文档的数据集,其中我的总字数在几万或几十万之间。

是否有另一种 ML 方法可以让我实现目标?

我看到了如何使用 TF/IDF 从语料库中生成单词和短语,但按预期输出的是平面维度上的常用单词和短语列表:在此处输入图像描述

我正在寻找的是更多类似于空间中高级向量集群的东西:[来源]在此处输入图像描述

2个回答

通过使用多种语言的预训练嵌入,您可以避开训练数据的匮乏,甚至完全训练之后,您可以使用以下简单算法之一计算文档嵌入,这基本上相当于使用 PCA/SVD 对每个句子的堆叠词嵌入矩阵运行降维:

请注意,词嵌入本身来自类似的计算:

Doc2vec(又名paragraph2vec,又名句子嵌入)将word2vec 算法修改为对较大文本块(例如句子、段落或整个文档)的连续表示进行无监督学习。

它将在向量空间中对每个文档主题进行聚类,学习它的语义。它会在您给定大小的数据集大小下表现良好。也检查一下 Doc2Vec - 如何标记段落(gensim)