我正在使用潜在语义索引来查找文档之间的相似性(谢谢,JMS!)
降维后,我尝试了 k-means 聚类将文档分组到集群中,效果很好。但我想更进一步,将文档可视化为一组节点,其中任何两个节点之间的距离与其相似度成反比(高度相似的节点靠得很近)。
令我震惊的是,由于我的数据> 2维,因此我无法准确地将相似度矩阵简化为二维图。所以我的第一个问题:有没有标准的方法来做到这一点?
我可以将我的数据减少到二维,然后将它们绘制为 X 和 Y 轴,这对于一组约 100-200 个文档是否足够?如果这是解决方案,最好从一开始就将我的数据减少到二维,或者有没有办法从我的多维数据中选择两个“最佳”维度?
如果有区别,我正在使用 Python 和 gensim 库。