数据空间、变量空间、观察空间、模型空间(例如在线性回归中)

机器算法验证 回归 多重回归 术语 几何学 双标图
2022-03-24 16:58:28

假设我们有数据矩阵,它是 ×和标签向量,它是 × 1。这里,矩阵的每一行都是一个观察值,每一列对应一个维度/变量。(假设XnpYnn>p

那么data space, variable space, observation space,model space是什么意思呢?

列向量跨越的空间是(退化的) -D 空间,因为它在排名为坐标,称为变量空间,因为它是由可变向量跨越的?或者它被称为观察空间,因为每个维度/坐标对应于一个观察?nnp

那么行向量所跨越的空间呢?

1个回答

这些术语出现在一些关于多元统计的书籍中。假设你有个体,由个定量特征数据矩阵组成。然后,您可以将个人绘制为空间中以轴为特征的点。这将是经典的散点图,也就是可变空间图。我们说,个体云跨越了由轴特征定义的空间。np

您也可以设想散点图,其中点是变量,轴是个体。完全像以前一样,只是颠倒过来。这将是主题空间图(或观察空间图),其中包含跨越它的变量,定义它的个人。

请注意,如果(通常),那么在第二种情况下,只有是非冗余的;这意味着您可以并且可以维图变量点此外,根据传统,变量点通常与原点相连,因此它们显示为矢量(箭头)。我们主要使用主题空间表示来显示变量之间的关系,因此为了方便起见,我们删除了轴主题并将点描绘为箭头。n>ppnpp1

如果在绘制主题空间图之前将特征(数据矩阵的列)居中,则变量向量之间角度的余弦等于它们的 Pearson 相关性,而向量长度等于变量的范数(平方根和) ) 或标准偏差(如果除以df)。

变量空间和主体空间是同一枚硬币的两个面,它们是同一个欧几里得分析空间,只是相互映照而已。它们共享相同的属性,例如非零特征值和特征向量。因此,可以将主题和变量并排绘制为该分析空间的主轴(或其他正交基)空间中的点, - 这种联合图称为biplot我不知道“数据空间”这个词到底是什么意思——如果它意味着特定的东西,那么我想它是主题空间和变量空间是两个实体的公共分析空间。

在此处输入图像描述

一些本地链接:


1想象一下,您有n=5个人和p=2变量,并且您以某种方式神奇地在 5 维空间中绘制了 2 个点。然后,您可以旋转由任意 2 个轴定义的子空间,使其嵌入 2 个点(因此从现在开始跨越该平面);之后,您安全地放下其他 3 个轴(尺寸),因为它们已变得不必要。两个变量点的相对位置被保留。