在 R 中聚类空间数据

机器算法验证 r 聚类 空间的
2022-03-24 11:11:02

我有一组海表温度 (SST) 月度数据,我想应用一些聚类方法来检测具有相似 SST 模式的区域。我有一组从 1985 年到 2009 年运行的月度数据文件,并希望将集群应用于每个月作为第一步。

每个文件包含 358416 个点的网格数据,其中大约 50% 是土地,并标有 99.99 值,即 NA。数据格式为:

   lon     lat   sst
-10.042  44.979  12.38
 -9.998  44.979  12.69
 -9.954  44.979  12.90
 -9.910  44.979  12.90
 -9.866  44.979  12.54
 -9.822  44.979  12.37
 -9.778  44.979  12.37
 -9.734  44.979  12.51
 -9.690  44.979  12.39
 -9.646  44.979  12.36

我已经尝试过 CLARA 聚类方法并得到了一些明显不错的结果,但在我看来这也只是平滑(分组)等值线。然后我不确定这是分析空间数据的最佳聚类方法。

有没有其他专门用于此类数据集的聚类方法?一些参考资料会很好地开始阅读。

提前致谢。

2个回答

可扩展集群有不同的方法,分治法,并行集群和增量集群。这是在您可以使用普通聚类方法之后的一般方法。我非常欣赏的一种很好的聚类方法是 DBSCAN(基于密度的噪声应用空间聚类),它是最常用的聚类算法之一。

pySAL是一个用于空间分析的、有一些聚类的、文档很好的 Python 库

另一个处于开发阶段的专注于空间聚类的python库是clusterPy (pdf幻灯片演示)

GUI 软件GeoGrouper具有更有限的聚类算法选择但具有良好的映射界面