我有一堆文本,我想根据语义相似性进行分离。通过 K-Means 运行,我能够将完整的文本分成不同的集群。
但是,我仍然需要找到哪个集群包含最相似的文本。例如:-
集群 1:-
“嘿,你好吗”。
'你好吗亲爱的'。
“我已经三天没见到你了。你好吗'。
第 2 组:-
“根据所进行的调查,吸烟造成的死亡人数超过……”。
“避免在公共场所吸烟。”。
'如果他们......人们更有可能避免吸烟'。
“根据进行的调查,人们最有可能选择民主人士”。
集群 1 应该排在集群 2 之上,因为它在其中包含的文本之间具有更多的语义相似性。