数据挖掘 - 较小数据集的 Word2Vec 替代方案 - 吾爱随笔录

数据挖掘机器学习神经网络 word2vec

2021-10-13 02:33:33

我希望使用Word2Vec对文档进行聚类并按主题对其进行分类。但是，似乎我需要一个重要的数据集[1 , 2]来完成这样的任务。

我有一个包含数千（而不是数百万）文档的数据集，其中我的总字数在几万或几十万之间。

是否有另一种 ML 方法可以让我实现目标？

我看到了如何使用 TF/IDF 从语料库中生成单词和短语，但按预期输出的是平面维度上的常用单词和短语列表：

我正在寻找的是更多类似于空间中高级向量集群的东西：[来源]

2个回答

通过使用多种语言的预训练嵌入，您可以避开训练数据的匮乏，甚至完全训练。之后，您可以使用以下简单算法之一计算文档嵌入，这基本上相当于使用 PCA/SVD 对每个句子的堆叠词嵌入矩阵运行降维：

请注意，词嵌入本身来自类似的计算：

Doc2vec（又名paragraph2vec，又名句子嵌入）将word2vec 算法修改为对较大文本块（例如句子、段落或整个文档）的连续表示进行无监督学习。

它将在向量空间中对每个文档主题进行聚类，学习它的语义。它会在您给定大小的数据集大小下表现良好。也检查一下 Doc2Vec - 如何标记段落（gensim）

其它你可能感兴趣的问题