为什么我们将正则化项除以正则化逻辑回归中的示例数?

数据挖掘 机器学习 逻辑回归 正则化
2022-02-10 03:12:04

所以这是正则化逻辑回归成本函数的公式:

在此处输入图像描述

x(i)- 这i'th 训练样例

θj- 的参数j'特征

m- 训练样例的数量

n- 特征的数量

y(i)- 实际结果i'th 训练样例,这样y{0,1}

λ- 正则化项

hθ- 在区间内产生预测的假设函数(0,1)

hθ(x(i))- 的预测值i'th 训练示例,例如:

hθ(x(i))=σ(θTx(i)), 在哪里σ(z)=11+ez(sigmoid/逻辑函数)

我的问题是关于最后一个学期:

在此处输入图像描述

据我了解,为了进行正则化,我们需要找到所有参数的平方和θ. 这很清楚。我们还将这个总和乘以正则化项λ,如果我们认为数据过拟合/欠拟合,我们可以改变它。好的。然后,为方便起见,我们将这个术语除以2这样当我们取导数时,我们将摆脱它2这将来自指数θ. 到目前为止一切都清楚了。但是,为什么我们还要分m(训练示例的数量)?我们将左项除以m为了找到平均误差,这是有道理的,因为我们有m例子,因此m错误,在我们找到这些的总和之后m错误,我们需要除以m得到平均误差。但是在这个我很困惑的正确术语中,我们找到了特征的平方和,特征的数量是n. 如果我们想找到所有的平均值θj2我们不需要除以n代替m, 因为我们有n特征。为什么将总和除以m我们不应该把它除以n?

1个回答

正如这里所解释的,这背后有几种可能的直觉,但对我来说最有力的论据是以下一个。

损失函数的“最佳”形式是需要最少调整量的形式,例如针对不同的数据集大小。将正则化项除以样本数会降低其对较大数据集的重要性。而且,实际上,由于需要正则化来防止过度拟合,因此如果有大量数据可用,则应该减少其影响(有利于数据本身的影响)。

这种方式一样λvalue 有更好的机会在不调整的情况下使用整个数据集以及其中的一小部分。