我正在尝试为 DBSCAN 聚类算法选择参数,特别是minPts。
Wikipedia 文章建议使用经验法则从数据集中的维数D导出minPts 。minPts >= D + 1。对于较大的数据集,噪声很大,建议minPts = 2 * dim。我猜D和dim代表相同,是吗?
我想知道在我的情况下D的价值是多少?
我使用 DBSCAN 根据其布局对业务文档的二维黑白扫描进行聚类。首先,每次扫描都被分割成黑白框,然后变成 0-1 的一维数组(字符串)。这是分段文档扫描的示例。
我在聚类中使用 Levenstein 距离来测量扫描之间的相似性。
所以我猜我的D = 1,我应该从minPts = 2 开始?
