数据挖掘 - Doc2Vec 的实际应用是什么？ - 吾爱随笔录

Doc2Vec 的实际应用是什么？

数据挖掘机器学习数据挖掘文本挖掘词嵌入 gensim

2021-10-04 15:05:19

我是 Doc2Vec 的新手。据我了解，Doc2Vec 根据上下文对类似文档进行分组。

我有一组报纸文件，我想根据它们的内容确定报纸的主要主题是什么（一组“政治”新闻文件，另一组“体育”新闻文件等）。因此，我有兴趣知道；

Doc2Vec 的哪个变体更适合这个（dbow，dm）？
Doc2Vec 算法的实际应用是什么？

1个回答

我将首先回答您的第二个问题，doc2vec 和 word2vec 都主要是捕获单词和文档语义的文本数据的良好表示。因此，无论何时处理文本数据，都需要对其进行表示，这就是 word2vec 和 doc2vec 提供的。现在想想文本数据上的任何现实世界任务，比如文档相似度，使用 doc2vec 你可以很容易地找到两个文档之间的余弦相似度，现在想想现实世界的应用程序，在一个站点上找到重复的问题，比如堆栈溢出，对候选答案进行排名一个问答模型，文本分类的特征，如情感分析（word2vec 在这里不能很好地工作，好的和坏的上下文非常相似，所以它很难区分正面和负面评论）。所以这些只是表象，
要回答您的第一个问题，模型不仅依赖于任务，还依赖于数据。因此，您可以阅读 Mikolov 的论文，了解每个模型如何用于基线任务，但一个好主意是在您的数据上尝试这两个模型，并从外部评估哪种算法性能更好。

其它你可能感兴趣的问题

上一篇由工厂重新采样的 Pandas 数据帧聚合太慢下一篇将回归问题转化为分类问题