数据挖掘 - 如何将具有相似内容的文本分组在一起？ - 吾爱随笔录

我需要找到一种解决方案来根据文档相似性对文本语料库进行分组。假设我在 ML 方面没有经验 - 只有少数阅读 - 我想知道计算每个文本的tf-idf是否是正确的方法。我已经阅读了一些关于计算和比较 tf-idf 上的余弦相似度的内容，但我不知道如何进一步处理结果。

说“几乎相等”意味着“单词的顺序很重要”，而不仅仅是不同顺序的相同单词。

我正在考虑使用 Apache Spark 的 MLlib 来完成这项工作（或者至少使用 Scala 库）。

任何人都可以将我引向正确的方向，或者甚至更好地在此页面添加指向教程的链接吗？