我想比较不同来源中提到的同一个词之间的差异。也就是说,作者在使用定义不明确的词(例如“民主”)方面有何不同。
一个简短的计划是
- 将提到“民主”一词的书籍作为纯文本
- 在每本书中,替换
democracy
为democracy_%AuthorName%
word2vec
在这些书上训练模型democracy_AuthorA
计算、democracy_AuthorB
和其他重新标记的“民主”提及之间的距离
所以每个作者的“民主”都有自己的向量,用来比较。
但似乎word2vec
需要的不仅仅是几本书(每个重新标记的单词只出现在书籍的一个子集中)来训练可靠的向量。官方页面推荐包含数十亿字的数据集。
我只是想问一个作者的书的子集应该有多大才能使用word2vec
或替代工具(如果有的话)进行这种推断?