数据挖掘 - 为什么我们将正则化项除以正则化逻辑回归中的示例数？ - 吾爱随笔录

所以这是正则化逻辑回归成本函数的公式：

$x^{(i)}$ - 这 $i$ 'th 训练样例

$\theta_j$ - 的参数 $j$ '特征

$m$ - 训练样例的数量

$n$ - 特征的数量

$y_{(i)}$ - 实际结果 $i$ 'th 训练样例，这样 $y \in \{0, 1\}$

$\lambda$ - 正则化项

$h_\theta$ - 在区间内产生预测的假设函数 $(0, 1)$

$h_\theta(x^{(i)})$ - 的预测值 $i$ 'th 训练示例，例如：

$h_\theta(x^{(i)}) = \sigma(\theta^{T}x^{(i)})$ ，在哪里 $\sigma(z) = \frac{1}{1+e^{-z}}$ （sigmoid/逻辑函数）

我的问题是关于最后一个学期：

据我了解，为了进行正则化，我们需要找到所有参数的平方和 $\theta$ . 这很清楚。我们还将这个总和乘以正则化项 $\lambda$ ，如果我们认为数据过拟合/欠拟合，我们可以改变它。好的。然后，为方便起见，我们将这个术语除以 $2$ 这样当我们取导数时，我们将摆脱它 $2$ 这将来自指数 $\theta$ . 到目前为止一切都清楚了。但是，为什么我们还要分 $m$ （训练示例的数量）？我们将左项除以 $m$ 为了找到平均误差，这是有道理的，因为我们有 $m$ 例子，因此 $m$ 错误，在我们找到这些的总和之后 $m$ 错误，我们需要除以 $m$ 得到平均误差。但是在这个我很困惑的正确术语中，我们找到了特征的平方和，特征的数量是 $n$ . 如果我们想找到所有的平均值 $\theta_j^2$ 我们不需要除以 $n$ 代替 $m$ , 因为我们有 $n$ 特征。为什么将总和除以 $m$ 我们不应该把它除以 $n$ ?