自组织图 (SOM) 是一个空间填充网格,可提供数据的离散降维。
您从数据点的高维空间和位于该空间中的任意网格开始。网格可以是任何维度,但通常小于数据集的维度,并且通常是二维的,因为这很容易可视化。
对于数据集中的每个数据,您可以找到最近的网格点,并将该网格点“拉”向数据集。您还将每个相邻的网格点拉向第一个网格点的新位置。在该过程开始时,您将许多邻居拉向数据点。在这个过程的后期,当你的网格开始填充空间时,你移动的邻居更少,这就像一种微调。这个过程会在数据空间中产生一组点,这些点与空间的形状相当吻合,但也可以被视为低维网格。
Kohonen 1990 年论文第 1468 页的两张图片很好地解释了这一过程:
此图像显示了三角形中均匀分布的一维地图。网格从中心开始是一团糟,并逐渐拉成一条曲线,在给定网格点数的情况下,可以很好地填充三角形:

第二张图片的左侧显示了一个 2D SOM 网格,它紧密地填充了左侧仙人掌形状定义的空间:

在 2D 空间和 youtube 上的 3D 空间中有使用 2D 网格的 SOM 过程视频。
现在空间中的每一个原始数据点都有一个最近的邻居,它被分配到。因此,网格是数据点集群的中心。网格提供了降维。
以下是使用主成分分析 (PCA) 进行降维的比较,来自wikipedia 上的 SOM 页面:

立即可以看出,一维 SOM 提供了更好的数据拟合,解释了超过 93% 的方差,而 PCA 为 77%。然而,据我所知,没有简单的方法来解释剩余的方差,就像 PCA(使用额外维度)一样,因为没有巧妙的方法来解开离散 SOM 网格周围的数据。