梯度下降法

数据挖掘 机器学习
2022-03-04 04:25:52

在此处输入图像描述

你好!

我开始学习梯度下降法是为了解决一些回归问题,我可以说我知道算法总体上做了什么,但我不明白为什么在每个成本函数中,x^i 不作为参数!

假设我们有 n 个大小的输入数据 (x1,x2,...,xn) ,每个输入数据都有 m 个属性。在成本函数中,我们基本上有一个来自 (x1,x2,...,xn) 的 xi,但是哪一个呢?我们随便拿一个?这在整个算法中仍然是标准的吗?我确实附上了图片以提供我所说的示例

1个回答

方程式并没有完全显示您的想法。对于您复制的方程式,当您看到x(i),你不应该认为它是

示例记录的第 i个特征x- [不正确]

相反,它是

训练数据集中的第 i个示例记录 - [正确]

所以,x(i)在这种情况下,实际上是一个包含单个示例的所有特征的向量,并且方程显示了向量算术。参数θ也是一个向量。

单个特征索引用下标显示jIExj(i)是第 i个记录的第j特征。方程式也使用粗体x对于一个向量和非粗体x尝试使用标量使其更清晰。

请注意,当您需要处理多个维度的数据时,不同的文档源将使用不同的约定和索引方案。一段时间后,当您知道会发生什么时,您会很快发现差异并找出正在使用的约定。这只是一个小问题,如果您切换学习资源,可能会突然出现 - 例如,观看一位研究人员的视频讲座,然后阅读另一位研究人员的书籍。

假设我们有 n 个大小的输入数据 (x1,x2,...,xn) ,每个输入数据都有 m 个属性。

m数据集中的例子。数据是(x(1),x(2),...,x(m))

没有_ m每个向量的分量。没有说明方程中有多少分量。

在成本函数中,我们基本上有一个来自 (x1,x2,...,xn) 的 xi,但是哪一个呢?我们随便拿一个?这在整个算法中仍然是标准的吗?

两个方程对整个数据集求和以计算成本函数或其梯度。