数据挖掘 - 在聚类分析中不强调某些维度的方法 - 吾爱随笔录

我试图了解聚类分析中不同维度的“权重”如何与数据集中给定维度的值范围相关。

数据集

包含 6 个维度的 1,000 到 10,000 个对象的列表：

目标： 将对象分成未知数量的集群。

在识别集群时，我想降低颜色维度的优先级。它不如位置重要，但需要在位置集群的边界上“打破联系”。可能有一些位置相似但颜色不同的对象，它们应该放在不同的集群中

我正在使用 python 的scikit-learn，尽管我愿意使用任何其他 python 工具。我看到样本有加权选项，但尺寸没有。

我可以使用的一种方法是限制颜色值的范围。换句话说，将 H、S 和 L 映射到 [0,0.333] 之间的范围。由于其他值在 [0,1] 的范围内，因此不同颜色值的值将比位置向量更接近，因此它们对聚类确定的影响应该较小。（我天真地将其称为颜色尺寸的 1/3 权重）

我对聚类算法不够熟悉，不知道这样做的含义。使用我一直在使用的互联网搜索术语，我无法很好地讨论聚类分析中的“加权维度”这个主题。

我的问题是：这种“缩短距离”的方法是否适合实现我的目标？scikit-learn 或任何其他 python 库是否允许在聚类分析中使用明确的维度权重参数？其他人如何实现这一目标？专家如何描述此类问题，以便我可以找到更多资源？