保留数据的局部或全局结构是什么意思?

数据挖掘 机器学习 降维
2022-02-11 13:34:38

我读到了降PaCMAP维方法(PaCMAP)。

他们写道,这种方法在原始空间中保留了数据的局部和全局结构

  1. 保留local数据结构的意义是什么?
  2. 保留global数据结构的意义是什么?

您能否为那些保留结构添加示例?

1个回答

在降低数据的维度时,您希望保留数据的局部特征,例如最近邻,同时保留整体方法,例如使远数据点彼此远离。这是大多数降维算法(尤其是非线性算法)试图保持的权衡。这是一种权衡,因为通常而且自然地走向其中一个会破坏另一个,所以我们想要的是在保留全局结构的同时保留局部结构。

例子

请参见下面的非线性曲线。它看起来像一个英文S在此处输入图像描述

现在让我们在这里讨论两种不同距离的建模。这些距离是S开头的深蓝色区域与:

  1. 紧接其下方的黄色区域,位于S的曲率上
  2. 非常浅的蓝色区域,位于相对侧的曲率上

你想怎么建模?

全局结构表明距离 (1) 小于 (2)(对吗?),但您在认知上看到并知道S形的连续形式表明距离 (1) 实际上大于 (2)。仅仅因为你看到了S的全局结构并且你看到这个结构是由不同颜色显示的许多局部结构的连续形式。

你直观地知道,如果你在数据上行走,你到达浅蓝色区域的速度比黄色区域快!在这里,您要保留局部结构,如果不这样做,您将陷入看到黄色区域比蓝色区域更近的陷阱。

这就是 LLE 向您展示的内容。它将数据嵌入到浅蓝色更接近深蓝色而不是黄色区域的低维空间中,这意味着局部结构被安全地保留,而形状的全局结构S形减少到简单的带状(见它作为开口或展平 S 形)。

希望我没有让你更加困惑!祝你好运