我想对经纬度数据进行聚类,以便形成的所有聚类的半径<=1000米
问题
- eps参数的实际含义是什么?请举个例子。
- 如果距离测量是以米为单位的半正弦,那么设置 eps=1000 会达到我的目的吗?
我知道 minpts 参数是集群大小。
我想对经纬度数据进行聚类,以便形成的所有聚类的半径<=1000米
问题
我知道 minpts 参数是集群大小。
Epsilon 是扩展集群的局部半径。把它想象成一个步长 - DBSCAN 永远不会比这更大,但是通过执行多个步骤DBSCAN 集群可以变得比 eps 大得多。
如果您希望您的“集群”具有最大半径,这是一个集合覆盖类型的问题,因此您可能需要一个贪婪的近似值。这不是聚类问题,因为您不允许聚类算法发现比这更大的结构。你想用一个覆盖,忽略结构来近似你的数据。
但是有一些聚类算法可以限制聚类半径(但它们可能不会尽力优化您的问题):
的意思是邻域大小。一个点的邻域,表示为, 被定义为. 这里是一个数据库对象(点)和一个查询点。 是什么将构成您的特定问题的合理半径。例如,在寻找几十公里的城市集群时可能是合理的。另见这篇文章。是的,我猜似乎是一个合理的初步估计。我可能会先尝试更大的东西,但这似乎并没有错位。让我指出,选择你的距离度量可能比你的更重要在某种方式。您还可以使用不同的方法重新运行分析并查看它的影响,但您的见解将直接与使用的距离度量相关联。