我试图了解聚类分析中不同维度的“权重”如何与数据集中给定维度的值范围相关。
数据集
包含 6 个维度的 1,000 到 10,000 个对象的列表:
- X位置
- Y位置
- 透明度(此数据集中为 0% 或 100%)
- 颜色(3维:RGB、HSL)
目标: 将对象分成未知数量的集群。
在识别集群时,我想降低颜色维度的优先级。它不如位置重要,但需要在位置集群的边界上“打破联系”。可能有一些位置相似但颜色不同的对象,它们应该放在不同的集群中
我正在使用 python 的scikit-learn
,尽管我愿意使用任何其他 python 工具。我看到样本有加权选项,但尺寸没有。
我可以使用的一种方法是限制颜色值的范围。换句话说,将 H、S 和 L 映射到 [0,0.333] 之间的范围。由于其他值在 [0,1] 的范围内,因此不同颜色值的值将比位置向量更接近,因此它们对聚类确定的影响应该较小。(我天真地将其称为颜色尺寸的 1/3 权重)
我对聚类算法不够熟悉,不知道这样做的含义。使用我一直在使用的互联网搜索术语,我无法很好地讨论聚类分析中的“加权维度”这个主题。
我的问题是:这种“缩短距离”的方法是否适合实现我的目标?scikit-learn 或任何其他 python 库是否允许在聚类分析中使用明确的维度权重参数?其他人如何实现这一目标?专家如何描述此类问题,以便我可以找到更多资源?