我是 Doc2Vec 的新手。据我了解,Doc2Vec 根据上下文对类似文档进行分组。
我有一组报纸文件,我想根据它们的内容确定报纸的主要主题是什么(一组“政治”新闻文件,另一组“体育”新闻文件等)。因此,我有兴趣知道;
- Doc2Vec 的哪个变体更适合这个(dbow,dm)?
- Doc2Vec 算法的实际应用是什么?
我是 Doc2Vec 的新手。据我了解,Doc2Vec 根据上下文对类似文档进行分组。
我有一组报纸文件,我想根据它们的内容确定报纸的主要主题是什么(一组“政治”新闻文件,另一组“体育”新闻文件等)。因此,我有兴趣知道;
我将首先回答您的第二个问题,doc2vec 和 word2vec 都主要是捕获单词和文档语义的文本数据的良好表示。因此,无论何时处理文本数据,都需要对其进行表示,这就是 word2vec 和 doc2vec 提供的。现在想想文本数据上的任何现实世界任务,比如文档相似度,使用 doc2vec 你可以很容易地找到两个文档之间的余弦相似度,现在想想现实世界的应用程序,在一个站点上找到重复的问题,比如堆栈溢出,对候选答案进行排名一个问答模型,文本分类的特征,如情感分析(word2vec 在这里不能很好地工作,好的和坏的上下文非常相似,所以它很难区分正面和负面评论)。所以这些只是表象,
要回答您的第一个问题,模型不仅依赖于任务,还依赖于数据。因此,您可以阅读 Mikolov 的论文,了解每个模型如何用于基线任务,但一个好主意是在您的数据上尝试这两个模型,并从外部评估哪种算法性能更好。