我想聚集〜22000点。许多聚类算法在初始猜测质量更高的情况下效果更好。有哪些工具可以让我很好地了解数据的大致形状?
我确实希望能够选择自己的距离度量,所以我可以提供一个成对距离列表的程序就可以了。我希望能够做一些事情,比如在显示器上突出显示一个区域或集群,并获取该区域中哪些数据点的列表。
首选免费软件,但我已经拥有 SAS 和 MATLAB。
我想聚集〜22000点。许多聚类算法在初始猜测质量更高的情况下效果更好。有哪些工具可以让我很好地了解数据的大致形状?
我确实希望能够选择自己的距离度量,所以我可以提供一个成对距离列表的程序就可以了。我希望能够做一些事情,比如在显示器上突出显示一个区域或集群,并获取该区域中哪些数据点的列表。
首选免费软件,但我已经拥有 SAS 和 MATLAB。
GGobi (http://www.ggobi.org/) 以及 R 包 rggobi 非常适合这项任务。
有关示例,请参见相关演示:http ://www.ggobi.org/book/2007-infovis/05-clustering.pdf
可以使用包clusterfly和gcExplorer在R中探索高维聚类结果。在这里寻找更多。
(几个月后,)描绘 k 簇并查看各种 k 的效果的一个好方法是构建一个 最小生成树 并查看最长的边。例如,
这里有 10 个簇,有 9 个最长边 855 899 942 954 1003 1005 1069 1134 1267。
对于 9 个簇,折叠青色 855 边;8、紫899;等等。
单链接 k 聚类算法……正是 Kruskal 算法……相当于找到一个 MST 并删除 k-1 个最昂贵的边。
——韦恩, 贪婪算法。
22000 点,242M 成对距离,大约 1 GB(float32):可能适合。
要查看 2d 中的高维树或图,请参阅多维缩放(也来自 Kruskal)以及有关降维的大量文献。但是,在昏暗 > 20 的情况下,大多数距离将接近中位数,所以我相信降维不能在那里工作。
在我的一个项目中,我对KNIME有很好的体验。它是快速探索性挖掘和绘图的绝佳解决方案。最重要的是,它提供了 R 和 Weka 模块的无缝集成。