- 首先,如果您想考虑它们,您需要将分类列转换为数字(例如列吨米)。
- 您需要标准化您的功能,因为规模存在差异(例如列G对比B L K)
- 您可能需要减少维度,因为 k-means 可能会陷入“维度诅咒”。
其余的都很好。欧几里得距离可以推广到任意数量的维度。
(X1-X2)2+ (是的1-是的2)2+ (z1-z2)2+ . . .--------------------------------√
所以,当你计算你的 k-means 时,你会得到ķ把他们每个人都指向d方面 (d是列数)。然后对于每个数据点,您计算上面的数据点和中心的距离,即
(Xd一个_ _-X中心_ _ _ _ _)2+ (是的d一个_ _-是的中心_ _ _ _ _)2+ (zd一个_ _-z中心_ _ _ _ _)2+ . . .----------------------------------------------√
Python 为您轻松完成。