假设我们有 3 个国家的 3 个变量,如下所示:
| Country | GDP | Child Mortality | Health Expenditure |
| X | 5 | 8 | 4 |
| Y | 7 | 3 | 1 |
| Z | 12 | 4 | 9 |
现在,如果国内生产总值和医疗支出增加,它是一个更好的国家。而如果儿童死亡率增加,那将是一个更糟糕的国家。
Q1。PCA 和聚类如何适当地处理这些类型的预测变量,而无需知道哪一组预测变量使其随着价值增加而成为更好的国家,以及哪一组预测变量使其随着价值增加而成为更差的国家?
Q2。我们是否需要用一些倒数(例如:除以 1 或按比例数据上的其他值)来转换一些预测变量,例如儿童死亡率,以便即使对于该列,值的增加也意味着一个更好的国家,因此行为类似于列像 GDP / Health Spend 等,所以我们的 PCA 和聚类算法能够更好地建模和提供良好的集群?请注意,模型中没有 y,我们只有一个需要聚类的国家列表。
任何这类事情都是在建模和这些技术中完成的?
或者我在这里看到的是无效的,我们只是不需要关心任何翻译(除了简单的特征缩放)并直接运行 PCA/聚类算法?如果我们这样做,如何在数学上创建适当的集群?