我对数以万计的字符串集合有一个距离度量。总结这些字符串的“不同”程度或它们何时重叠的直观方法是什么?
我的目标是,在视觉上确保高熵并能够识别聚类区域和与之相关的字符串。
我设想了一种聚类图,其中每个字符串周围都有一些半径来捕获其邻居......但这需要一个有意义的坐标系。
我对数以万计的字符串集合有一个距离度量。总结这些字符串的“不同”程度或它们何时重叠的直观方法是什么?
我的目标是,在视觉上确保高熵并能够识别聚类区域和与之相关的字符串。
我设想了一种聚类图,其中每个字符串周围都有一些半径来捕获其邻居......但这需要一个有意义的坐标系。