我想使用词袋模型对我为 Google 学者搜索获得的文档进行聚类。我想使用 Java 作为语言。
假设关键字k,谷歌学者给了我 50 个结果。如果我有一组预定义的单词w1、w2、w3...wn,我如何对包含预定义单词集最多的文档进行排名?我如何为此应用词袋模型?我需要像 k-means 这样的聚类算法吗?我还需要执行 NLP 技术吗?
假设单词w1有几个同义词。我如何考虑这些同义词以及文档排名?我是否必须为此创建一个包含所有缩写、同义词等的语料库?
有没有什么好的教程可用?由于大多数资源(Ex - Scikit)都在 Python 中,因此选择 Java 而不是 Python 会是一个劣势吗?