理解“统计学习的要素”中的线性投影

机器算法验证 回归 机器学习
2022-03-20 22:43:57

在第 2 章(“线性模型和最小二乘法;第 12 页”)的“统计学习的要素”一书中,写道

在 (p+1) 维输入输出空间中,(X,Y) 表示一个超平面。如果常数包含在 X 中,则超平面包含原点并且是子空间;如果不是,它是一个仿射集在点 (0, β ) 处切割 Y 轴。

我没有得到“如果常数为 ... (0, β )”这句话。请帮忙?我认为超平面在这两种情况下都会在 (0, β ) 处切割 Y 轴,对吗?

下面的答案有所帮助,但我正在寻找更具体的答案。我知道当1包含在X中时,它不会包含原点,但是(X,Y)将如何包含原点?它不应该取决于β的值吗?如果拦截β0不是0(X,Y)不应该包含原点,在我的理解?

3个回答

在输入向量中包含常数1是包含偏差(考虑 Y 截距)但保持表达式的所有项对称的常见技巧:您可以在任何地方写βX而不是β0+βX X。

如果你这样做,那么超平面包括原点是正确的,因为原点是一个相乘得到值Y=βX0β0

但是,您的输入向量的第一个元素将始终等于因此它们永远不会包含原点,并且将被放置在一个较小的超平面上,该超平面的维度少一维。1

您可以通过考虑纸上来形象化这一点(二维)。相应的超平面,如果你包括偏置你的向量变成和你的系数在 3 维中,这是一个从原点经过的平面,它与平面相交,生成可以放置输入的线。Y=mx+qqX=[x,x0=1]β=[m,q]x0=1

为了帮助您理解这一点,我对一个非常简单的案例进行了可视化。

假设我们有一个一维问题(p=1),因此单个特征(输入变量)来预测单个输出变量假设我们已经为输入变量和系数X1Yβ0=5β1=2X1

我们的线性模型看起来像:Y^=β0+β1×X1

因此,在这种情况下(2d),明显的表示将是(p+1)维空间中的超平面(一条线):

不包含在 x 中的常数

另一种表示是添加另一个变量,这将导致以下等式:X0Y^=β0×X0+β1×X1

在实践中,我们知道将是一个常数并等于 1,但我们假设它还没有固定。在这种情况下,我们现在可以绘制一个带有超平面的 3d 图,如下所示:X0

x 中包含的常数

最后,因为我们知道只有是可能的,所以我用红色虚线突出显示了这个超平面的唯一工作投影,它与我们之前的绘图完全对应。X0=1

我相信这里的两个答案都是不正确的,因为教科书本身是不正确的,所以他们试图证明一个不正确的概念是正确的。请参阅用户 Jean-Claude Arbaut 的这个答案。