我尝试使用 k-means 聚类对数百个文本进行聚类。我想考虑其他算法来根据其内容对文本进行分组,并尝试发现与其他新闻无关的新闻(主题不同)。我想知道是否有其他方法/算法可用于根据文本的相似度将文本分为两个或多个组。假设我有数千个使用相同关键字但在不同上下文中的文本。有些文本可能具有相同的句子结构,例如:
The pen is on the table
The black pen is on the table.
Where is my pen? Your pen is on the table.
I cannot find my pen. I was using it a few minutes ago.
我希望能够根据它们的结构对上面的句子进行聚类,即使用n
手动设置的 n-gram。
通过这种方式,我应该能够将前三个句子包含在同一个集群中,因为与最后一个句子相比,它们在使用相同/相似词时的相似度更高。它是关于计算每个句子与其他句子的相似性。
你知道我该怎么做吗?