Word2Vec 需要多少训练数据?

数据挖掘 文本挖掘 词嵌入 word2vec
2021-09-23 07:53:51

我想比较不同来源中提到的同一个词之间的差异。也就是说,作者在使用定义不明确的词(例如“民主”)方面有何不同。

一个简短的计划是

  1. 将提到“民主”一词的书籍作为纯文本
  2. 在每本书中,替换democracydemocracy_%AuthorName%
  3. word2vec在这些书上训练模型
  4. democracy_AuthorA计算、democracy_AuthorB和其他重新标记的“民主”提及之间的距离

所以每个作者的“民主”都有自己的向量,用来比较。

但似乎word2vec需要的不仅仅是几本书(每个重新标记的单词只出现在书籍的一个子集中)来训练可靠的向量。官方页面推荐包含数十亿字的数据集

我只是想问一个作者的书的子集应该有多大才能使用word2vec或替代工具(如果有的话)进行这种推断?

1个回答

听起来 Doc2Vec(或段落/上下文向量)可能适合这个问题。

简而言之,除了词向量之外,您还添加了一个“上下文向量”(在您的情况下,是作者的嵌入),用于预测中心词或上下文词。

这意味着您将受益于所有关于“民主”的数据,但也为该作者提取嵌入,结合起来应该允许您使用关于每个作者的有限数据来分析每个作者的偏见。

您可以使用gensim 的实现该文档包含指向源文件的链接。