识别国家类型的数据缩减技术

机器算法验证 主成分分析 因子分析 降维
2022-03-07 13:05:01

我教一门经济地理入门课程。为了帮助我的学生更好地了解当代世界经济中的国家类型和数据缩减技术,我想构建一个作业,创建不同类型的国家(例如,高收入高收入国家)附加值制造业预期寿命长;高收入自然资源出口国中高预期寿命;德国是第一种类型,也门是第二种类型)。这将使用公开可用的开发计划署数据(如果我没记错的话,其中包含不到 200 个国家的社会经济数据;抱歉,没有可用的区域数据)。

在此分配之前将是另一个要求他们(使用相同的---主要是区间或比率水平---数据)来检查这些相同变量之间的相关性。

我希望他们首先对不同变量之间的关系类型(例如,预期寿命和[各种]财富指标之间的正相关关系;财富和出口多样性之间的正相关关系)形成一种直觉。然后,当使用数据缩减技术时,组件或因素将具有某种直观意义(例如,因素/组件 1 捕获了财富的重要性;因素/组件 2 捕获了教育的重要性)。

鉴于这些是二至四年级的学生,通常对分析性思维的接触有限,您建议哪种单一数据缩减技术最适合第二个作业?这些是人口数据,因此推论统计(p-vlaues 等)并不是真正必要的。

4个回答

作为一种探索性方法,PCA 是像 IMO 这样的任务的一个很好的首选。让他们接触到它也很好;听起来他们中的许多人以前不会见过主成分。

在数据方面,我还要向您指出非常完整的世界银行指标:http: //data.worldbank.org/indicator

我同意 JMS,在检查了每个县变量之间的初始相关性和散点图之后,PCA 似乎是一个好主意。这个线程有一些有用的建议,以非数学术语介绍 PCA。

我还建议使用小型多张地图来可视化每个变量的空间分布(gis.se 网站上的这个问题中有一些很好的例子)。如果您要比较的面积单位数量有限并且使用了良好的配色方案(例如Andrew Gelman 博客上的这个示例),我认为这些效果特别好。

不幸的是,我怀疑任何“世界国家”数据集的性质经常会导致数据稀疏(即很多缺失的国家),从而使地理可视化变得困难。但是这种可视化技术在其他情况下也应该对您的课程有用。

快速添加说明:无论您使用上述哪种技术,您都需要首先检查变量的分布,因为其中许多将“要求”您首先使用对数转换它们。这样做会比使用原始变量更好地揭示一些关系。

您可以使用 CUR 分解作为 PCA 的替代方法。CUR分解可以参考[1]或[2]。在 CUR 分解中,C 代表选定的列,R 代表选定的行,U 是链接矩阵。让我解释一下 [1] 中给出的 CUR 分解背后的直觉;

尽管截断 SVD 被广泛使用,但向量uivi就提取数据的领域而言,它们本身可能没有任何意义。例如,特征向量

[(1/2)age − (1/ √2)height + (1/2)income]

作为来自人们特征数据集的重要不相关“因素”或“特征”之一,并不是特别有用或有意义。

CUR 的好处在于,基列是实际的列(或行),与 PCA(使用 trancated SVD)相比,它更好地解释。

[1] 中给出的算法很容易实现,您可以通过更改错误阈值并获得不同数量的碱基来使用它。

[1] MW Mahoney 和 P. Drineas,“用于改进数据分析的 CUR 矩阵分解”,美国国家科学院院刊,第一卷。106,2009 年 1 月,第 697-702 页。

[2] J. Sun、Y. Xie、H. Zhang 和 C. Faloutsos,“Less is more:大型稀疏图的紧凑矩阵分解”,第七届 SIAM 数据挖掘国际会议论文集,Citeseer,2007,p . 366.