我正在使用数字和分类变量对数据进行聚类。为了处理集群模型的分类变量,我创建了虚拟变量。但是,我觉得这会导致这些虚拟变量的重要性更高,因为多个虚拟变量代表一个分类变量。
例如,我有一个分类变量Airport,它会产生多个虚拟变量:LAX、JFK、MIA和BOS。现在假设我还有一个数字 温度变量。我还将所有变量缩放到 0 和 1 之间。现在我的Airport变量似乎比Temperature变量重要 4 倍,并且集群将主要基于Airport变量。
我的问题是我希望所有变量都具有相同的重要性。有没有办法做到这一点?我正在考虑以不同的方式缩放变量,但我不知道如何缩放它们以赋予它们相同的重要性。