我需要找到一种解决方案来根据文档相似性对文本语料库进行分组。假设我在 ML 方面没有经验 - 只有少数阅读 - 我想知道计算每个文本的tf-idf是否是正确的方法。我已经阅读了一些关于计算和比较 tf-idf 上的余弦相似度的内容,但我不知道如何进一步处理结果。
说“几乎相等”意味着“单词的顺序很重要”,而不仅仅是不同顺序的相同单词。
我正在考虑使用 Apache Spark 的 MLlib 来完成这项工作(或者至少使用 Scala 库)。
任何人都可以将我引向正确的方向,或者甚至更好地在此页面添加指向教程的链接吗?