假设我有 2005 - 2015 年不同文档的文本数据。我想比较和文档之间的相似性。所以我拿 2006 年的文件和 2005 年的文件比较,拿 2007 年的文件和 2006 年的文件比较……一直到 2015 年,与 2014 年相比。
我为每一年计算了一个独立于其他年份的 Word2Vec 模型,并为每个 Word 获得了高维数组。所以我从 2005 年到 2015 年有 10 个 Word2Vec 模型。
我从这里比较文档相似性的最佳方法是什么。
以前我使用 TF-IDF,我可以为每个文档创建一个大矩阵,其中行中包含单词,列中包含文档。和处结合他的 TermDocumentMatrix并计算余弦相似度。
但是 Word2Vec 提供了很多高维数组,我想不出如何比较从到W2V 模型。
任何帮助都会很棒!