PCA 和聚类如何处理不同类型的预测变量,其中它们的值顺序表示不同的结果?

数据挖掘 机器学习
2022-02-12 20:32:11

假设我们有 3 个国家的 3 个变量,如下所示:

|  Country |  GDP  |  Child Mortality  |  Health Expenditure  |
|  X       |    5  |                8  |                   4  |
|  Y       |    7  |                3  |                   1  |
|  Z       |   12  |                4  |                   9  |

现在,如果国内生产总值和医疗支出增加,它是一个更好的国家。而如果儿童死亡率增加,那将是一个更糟糕的国家。

Q1。PCA 和聚类如何适当地处理这些类型的预测变量,而无需知道哪一组预测变量使其随着价值增加而成为更好的国家,以及哪一组预测变量使其随着价值增加而成为更差的国家?

Q2。我们是否需要用一些倒数(例如:除以 1 或按比例数据上的其他值)来转换一些预测变量,例如儿童死亡率,以便即使对于该列,值的增加也意味着一个更好的国家,因此行为类似于列像 GDP / Health Spend 等,所以我们的 PCA 和聚类算法能够更好地建模和提供良好的集群?请注意,模型中没有 y,我们只有一个需要聚类的国家列表。

任何这类事情都是在建模和这些技术中完成的?

或者我在这里看到的是无效的,我们只是不需要关心任何翻译(除了简单的特征缩放)并直接运行 PCA/聚类算法?如果我们这样做,如何在数学上创建适当的集群?

1个回答

无论它们在模型中的含义如何,相似的值组合都将聚集在一起。集群的含义是由模型构建者来确定的。

您可以设计另一个特征(称为“善良”),将 GDP 除以儿童死亡率(例如),以便添加更多变量来确定集群,方法是将 GDP 除以 GDP 较低和死亡率较高的县较小的“好”值,而较高的 GDP 和较低的死亡率将具有较高的“好”值,然后将使模型有更好的机会在这个因素上进行聚类。