可视化高维数据的目的?

数据挖掘 机器学习 降维 可视化
2021-09-22 22:18:35

高维数据集的可视化技术有很多,例如 T-SNE、isomap、PCA、有监督的 PCA 等。我们通过将数据投影到 2D 或 3D 空间的运动,因此我们有一个“漂亮的图片” ”。此处描述了其中一些嵌入(流形学习)方法

在此处输入图像描述

但这幅“美图”真的有意义吗?通过尝试可视化这个嵌入式空间,人们可以获得哪些可能的见解?

我问是因为投射到这个嵌入空间通常是没有意义的。例如,如果您将数据投影到由 PCA 生成的主成分,则这些主成分(特征向量)与数据集中的特征不对应;它们是它们自己的特征空间。

同样,t-SNE 将您的数据投影到一个空间,如果项目最小化一些 KL 散度,则项目彼此靠近。这不再是原始特征空间。(如果我错了,请纠正我,但我什至不认为 ML 社区在使用 t-SNE 来帮助分类方面付出了巨大的努力;不过,这与数据可视化是一个不同的问题。)

我只是非常困惑为什么人们对其中一些可视化如此重视。

4个回答

我以自然语言处理为例,因为这是我有更多经验的领域,所以我鼓励其他人分享他们在其他领域的见解,如计算机视觉、生物统计学、时间序列等。我确信在这些领域有类似的例子。

我同意有时模型可视化可能毫无意义,但我认为这种可视化的主要目的是帮助我们检查模型是否真的与人类直觉或其他(非计算)模型相关。此外,可以对数据执行探索性数据分析。

假设我们有一个使用Gensim从维基百科语料库构建的词嵌入模型

model = gensim.models.Word2Vec(sentences, min_count=2)

然后,我们将为该语料库中至少出现两次的每个单词提供一个 100 维向量。因此,如果我们想可视化这些单词,我们必须使用 t-sne 算法将它们减少到 2 或 3 维。这是非常有趣的特征出现的地方。

举个例子:

矢量(“国王”)+矢量(“男人”)-矢量(“女人”)=矢量(“女王”)

http://multithreaded.stitchfix.com/blog/2015/03/11/word-is-worth-a-thousand-vectors/

这里每个方向都编码某些语义特征。同样可以在 3d 中完成

https://www.tensorflow.org/versions/master/images/linear-relationships.png
(来源:tensorflow.org

看看在这个例子中,过去时如何位于与其分词相关的某个位置。性别也是一样。国家和首都也是如此。

在词嵌入世界中,更老更幼稚的模型没有这个属性。

有关更多详细信息,请参阅此斯坦福讲座。 简单的词向量表示:word2vec、GloVe

它们只限于将相似的词聚集在一起而不考虑语义(性别或动词时态没有被编码为方向)。毫不奇怪,具有语义编码作为低维方向的模型更准确。更重要的是,它们可以用来以更合适的方式探索每个数据点。

在这种特殊情况下,我不认为 t-SNE 本身用于帮助分类,它更像是对您的模型的健全性检查,有时是为了深入了解您正在使用的特定语料库。至于向量不再在原始特征空间中的问题。Richard Socher 在讲座(上面的链接)中解释说,低维向量与其更大的表示以及其他统计属性共享统计分布,这使得在低维嵌入向量中进行可视化分析是合理的。

其他资源和图像来源:

  1. 一个词值得一千个向量

  2. 学习词嵌入的动机

理查德·汉明(Richard Hamming)被归因于这句话:“计算的目的是洞察力,而不是数字。” 在这篇 1973 年的学术论文中(参见什么是看起来完全不同但具有相似汇总统计数据的著名数据集?),Francis Anscombe 认为“图表对于良好的统计分析至关重要”。Anscombe 的四重奏是长期以来的最爱:相同的统计数据和回归,低维度,但在噪声、异常值、依赖性方面的行为非常不同。将 11 个维度的数据投影到如下所示的两个维度上非常具有误导性:一个具有相关性和离散性,第二个(自下而上)具有完全匹配,除了一个异常值。第三个有明确的关系,但不是线性的。第四个显示变量可能不相关,除了阈值。

在此处输入图像描述

Bruce L. Brown等人的《生物行为和社会科学的多变量分析》一书中。, 我们可以找:

在他 1990 年的作品“共同绘制事物”中,拉图尔声称,硬科学家的心态是对图形主义的强烈“痴迷”之一

无论是受限于 3D 空间,最多六维的情节(空间、颜色、形状和时间),甚至是想象的第十维,人类的视野都是有限的。可观察现象之间的关系:不是。

此外,维度的诅咒还伴随着低维度的悖论,举几个例子:

即使所有范数在有限维度上都是等价的,变量之间的关系也可能会产生误导。这是保持从一个空间到另一个空间的距离的原因之一。这些概念是信号低维嵌入的核心(例如压缩感知Johnson-Lindenstauss 引理,涉及从高维到低维欧几里得空间的点的低失真嵌入)或特征(用于分类的散射变换) .

因此,可视化是获得数据洞察力的另一个帮助,它与计算密切相关,包括降维。

最后一个例子:放置触摸 n-球体n-cube(盒子里的气泡,取自Do good mathemaians Visualize everything (even algebra)?):

披萨盒悖论

在二维中,中心的蓝色球很小。在 3D 中也是如此。但很快,中心球就变大了,它的半径超过了立方体的半径。例如,这种洞察力对于聚类至关重要。

首先,您对方法的解释是正确的。关键是嵌入算法不仅要可视化,而且要从根本上减少维度以应对统计数据分析中的两个主要问题,即维度诅咒低样本大小问题,因此它们不应该描述物理理解的特征,并且它们不仅有意义,而且对数据分析也是必要的!

实际上可视化几乎是嵌入方法的最后一次使用。将高维数据投影到低维空间有助于保留在高维中失真的实际成对距离(主要是欧几里得距离)或捕获嵌入在不同特征的方差中的最多信息。

根据这些陈述和讨论,我认为有一个重要的地方需要区分。向低维空间的转换可能会减少信息,这与使信息无意义不同。让我使用以下类比:

观察我们的世界 (3D) 的 (2D) 图片是一种常见的做法。可视化方法仅提供不同的“眼镜”来查看高维空间。

“信任”可视化方法的一件好事是了解其内部结构。我最喜欢的例子是MDS使用一些优化工具(例如 R optim可以很容易地自行实现此方法。所以你可以看到方法是如何用词的,你可以测量结果的误差等。

最后,您会得到一张以一定精度保留原始数据相似性的图片。不多,但也不少。