Doc2vec 用于文本分类任务

数据挖掘 机器学习 分类 词嵌入
2022-02-21 04:32:50

我可以使用 doc2vec 对大文档进行分类(500-2000 字,20000 总文档,三类分类)吗?文档足够大并且包含许多常用词,这是一个问题吗?我可以将我的数据与维基百科文章(每篇文章使用唯一标签)一起训练,以获得更准确的计算词嵌入,还是不能产生积极影响?

2个回答

我可以使用 doc2vec 对大文档进行分类(500-2000 字,20000 总文档,三类分类)吗?

是的。这个数量的文件被认为是中小型的。值得注意的是,最初的Doc2Vec 论文对 75K 文档进行了实验。

文档足够大并且包含许多常用词,这是一个问题吗?

不,没关系。考虑一个事实,即常见的独特的词都随着文档的大小而增加,而独特的词才是最重要的。也就是说,较大的文本更容易区分。

我可以将我的数据与维基百科文章一起训练(每篇文章使用唯一标签)以获得更准确的计算词嵌入,还是不能产生积极影响?

这取决于并且值得一试。如果 Wikipedia 文档在格式和内容上与您的文档接近,那么它们肯定会有所帮助。在 Doc2Vec 论文中,作者使用 25K 标记文档(带有正面和负面标签的 IMDb 评论)和 50K 未标记文档进行训练。

此外,这是一个很好的使用 doc2vec 的教程。它为 100K 文档报告 1-2 小时。

您可以在 20K 文档(500-2000 字)上使用 doc2vec。但是,请确保在开始之前对文本文档进行了适当的预处理。它可能需要大量的参数调整和迭代来训练模型。假设您有足够的计算资源,我认为尝试没有任何问题。