如何通过最相关的词对文本进行聚类

数据挖掘 聚类
2022-02-23 13:21:18

我有大量文档,每个文档都有自己的肖像,其中肖像具有这种结构(document_id、word、weight)。TFIDF,基本上。

我想将这些文档聚集到不同的集群中,比如 10。
我正在尝试使用 sklearn 实现 K-Means 算法,但我对数据科学的经验几乎为零。我发现的所有教程都从维基百科或其他地方获取文本作为输入,但我无法访问文本本身。我只有他们的肖像。希望这是有道理的。

这是否可以通过 sklearn 实现,如果可以,您能指导我在哪里挖掘或看什么

2个回答

您可以将这些单词及其权重用作文档的向量表示。重要的一点是让所有的文档向量在整个词汇表上,这样任何向量中的任何位置总是代表同一个单词这意味着向量应该在与不在文档中的单词对应的所有位置中包含零。iwi

使用这些向量,您确实可以使用 k-means 对文档进行聚类。当然,结果的质量取决于数据:如果共同的单词很少,它就不能很好地工作。

我不知道你拥有的单词的性质,但你可以从余弦相似度开始。它基于 2 个句子/文档之间的常用词数。

然后,您可以使用词嵌入将其扩展为包含句法相似的词,该词会将词转换为数字向量,然后对它们执行操作。

如果简单的余弦相似度不起作用,您将不得不阅读其他相似度度量或词嵌入。