在 DBSCAN 中估计用于文档布局聚类的 minPts

数据挖掘 聚类 数据库扫描
2022-03-03 19:30:12

我正在尝试为 DBSCAN 聚类算法选择参数,特别是minPts

Wikipedia 文章建议使用经验法则从数据集中的维数D导出minPts 。minPts >= D + 1。对于较大的数据集,噪声很大,建议minPts = 2 * dim我猜Ddim代表相同,是吗?

我想知道在我的情况下D的价值是多少?

我使用 DBSCAN 根据其布局对业务文档的二维黑白扫描进行聚类。首先,每次扫描都被分割成黑白框,然后变成 0-1 的一维数组(字符串)。这是分段文档扫描的示例。

分割图像

我在聚类中使用 Levenstein 距离来测量扫描之间的相似性。

所以我猜我的D = 1,我应该从minPts = 2 开始?

0个回答
没有发现任何回复~