我有一个问题是按其含义将大量句子分组。这类似于当您有很多句子并希望按其含义对它们进行分组时的问题。
建议使用什么算法来做到这一点?我事先不知道集群的数量(随着更多数据的到来,集群也会发生变化),通常使用哪些特征来表示每个句子?
我现在正在尝试最简单的功能,只有单词列表和句子之间的距离定义为:
\ /
(A 和 B 是句子 A 和 B 中对应的词组)
这有意义吗?
我正在尝试将scikit 库中的 Mean-Shift算法应用到这个距离,因为它不需要提前的集群数量。
如果有人会针对该问题提出更好的方法/方法 - 将不胜感激,因为我对这个话题仍然很陌生。