我正在使用Orange进行我的第一次聚类分析(我最近发现了它,并且看起来很有希望用于这个迭代和交互式过程)。
显然,有几种基于距离算法创建集群的方法:
- 单链接(计算两个集群中最近元素之间的距离)
- 平均链接(计算两个集群的元素之间的平均距离)
- 完全链接(计算集群最远元素之间的距离)
- 加权连杆
- 病房
由于我有几列,其中一些在定义集群方面比其他列更重要,在我看来,使用加权链接方法可能是我正在寻找的。不幸的是,我不知道该怎么做,因为我没有找到为每一列分配权重的方法。
更糟糕的是,我只在此 Orange 的博客文章中找到了关于前三个的解释,但没有关于加权链接 (也没有Ward,这可能是最近添加的,因为它甚至没有在小部件的帮助中提及)。
我是否在正确的道路上实现我正在寻找的东西?在计算距离时,有什么方法可以使某些列或多或少重要/明确?