SOM 如何使高维数据的可视化成为可能?

数据挖掘 神经网络
2021-10-04 06:11:14

自组织地图被认为是一种非常有效的探索性数据分析工具,因为它有助于高维数据的可视化。

但是,我不清楚发生降维的部分。这篇文章中,我了解到信息本质上嵌入在与原始模式具有相同维度的神经元的权重向量中。相同的权重向量应该用于可视化(如果我遵循非常流行的颜色示例)。

如果这是真的,我不明白 SOM 如何执行降维以及如何简化高维数据的可视化。

有人可以解释(如果可能的话,举一个 >3 维数据的例子)SOM 如何执行降维并使可视化成为可能?

2个回答

考虑一个包含 1000 个模式的数据集,每个模式有 100 个特征。绘制这些数据是不可能的。当这些数据通过 SOM 运行时,网络会学习权重,以便每个神经元汇总向量的一个子集。训练完成后,相似的模式被映射到邻域神经元,相距较远的神经元代表不同的模式。可视化此映射可以告诉您哪些模式位于 2D 空间中的位置。

例如,在世界贫困地图[1] [2]中,每个模式都是一个长度为 39 的向量,代表一个国家。当这个数据集通过 SOM 运行时,国家(模式)被映射到最近的神经元,可以看出这些国家是根据其经济状况排列在一起的。世界贫困地图

在运行 SOM 直到满足停止标准后,每个模式/输入向量都被映射到最佳匹配单元。因此,例如,比利时(BEL)最接近地图中第一个节点(右上角)的权重向量,因此映射到它。

每个节点根据其权重向量与其相邻节点的权重向量(U 矩阵)的平均距离进行着色。

然而,目前尚不清楚如何实现降维。

降维可以很容易地解释:假设您有一个巨大的矩阵,所有国家都列在水平方向上,所有可能的特征列在垂直方向上,并且每个特征和每个国家都在矩阵中设置了一个标志。许多特征与它们出现的模式有相似之处,因此这些特征可以组合成特征组。我们现在所做的只是从一开始的巨大矩阵进行简单的矩阵分解,变成一个垂直分组特征和水平国家的小矩阵,以及一个所有原始特征和所有分组的另一个小矩阵另一方面的特点。这就是所有的魔法,只是一个简单的矩阵分解。