了解局部加权线性回归

数据挖掘 线性回归
2021-10-06 17:12:03

我在理解我们如何选择权重函数时遇到问题。在 Andrew Ng 的笔记中,一种计算局部权重的方法,权重的标准选择如下:在此处输入图像描述 我不明白的是,这里的x到底是什么?显然

请注意,权重取决于我们试图评估 x 的特定点 x。

但我不明白。

以房间数量和平方英尺大小预测的房价为例。所以每个x^(i)都是一个[roomnum, size]数组。那么里面有什么x我想这也应该是一个[roomnum, size]数组,但里面有什么?它甚至是一个向量吗?还是它是目标变量?如果是这样,为什么不标有y没看懂,求大神帮忙!

编辑 好的,所以我想要创建一个像这样的回归线: 在此处输入图像描述

我将如何选择x -es?它们在算法中会是什么?我必须对每个x进行猜测吗?我怎样才能生产这样的一条线?

3个回答

局部加权线性回归是一种拟合数据点的非参数方法。这意味着什么?

  • 您可以拟合许多线性回归模型,而不是拟合一条回归线。最终得到的平滑曲线是所有这些回归模型的乘积。
  • 显然,我们不能一次又一次地拟合同一个线性模型。相反,对于我们想要拟合的每个线性模型,我们找到一个点 x 并将其用于拟合局部回归模型。
  • 我们找到最接近 x 的点来拟合我们的每个局部回归模型。这就是为什么您会看到该算法在文献中也被称为最近邻算法。

现在,如果您的数据点具有从 1 到 100 的 x 值:[1,2,3 ... 98,99,100]。该算法将适合 1,2,3...,98,99,100 的线性模型。这意味着,您将拥有100 个回归模型。

同样,当我们拟合每个模型时,我们不能只使用样本中的所有数据点。对于每个模型,我们找到最近的点并将其用于拟合。例如,如果算法想要拟合x=50,它将对 [48,49,50,51,52] 赋予更高的权重,而对 [45,46,47,53,54,55] 赋予更少的权重。当它试图拟合 时x=95,点 [92,93,95,96,97] 的权重将高于任何其他数据点。

你看到图案了吗?靠近您要拟合的位置的点具有较高的权重,而进一步的点具有较低的权重(如果太远,则为零)。这就是权重函数的用途。

直接回答你的问题:

x 是每个局部回归模型的数据点。它们通常(但不总是)是样本中的数据点。

x可以是用于定义权重的钟形函数中峰值中心的位置。请注意,权重取决于特定点x 我们正在尝试评估 x.

而且,

如果 |x(i)x| 很小,那么 w(i) 很大(接近 1)

如果 |X(一世)-X| 很大,那么 w(一世) 很小(接近 0)。

正如文章所提到的:

在原始的线性回归算法中,在查询点进行预测 X (即,评估 H(X))...

X 你想要的是你想要预测的确切数据点,在你的情况下, X是一个[roomnum, size]元组。

假设你想找到一个 F(r,s), 在哪里 F(rn一世,s一世ze一世)=pr一世Ce一世,一世. 你有一个数据集和一个适合的算法F(r,s).

局部加权线性回归最有趣的部分是,当模型发生变化时X变化(记住X 是您要查询的数据点)。

认为 X=(R,小号)=(3,30),算法变为:

寻找 θ 尽量减少

一世eXp(-|X(一世)-X|22τ2)(是的(一世)-θX(一世))

在哪里 X(一世)是的(一世) 是你的数据集, X=(3,30) 是您要查询的点。

文章清楚表明:

我们之前看到的(未加权)线性回归算法被称为参数学习算法,因为它具有固定的、有限数量的参数(θi's),这些参数适合数据。

然而,

“非参数”(粗略地)指的是我们需要保留的东西的数量以表示假设 H 随着训练集的大小线性增长。