机器算法验证 - 决策边界的方程是如何确定的？ - 吾爱随笔录

机器算法验证机器学习物流

2022-04-01 00:18:36

机器学习新手/爱好者在这里学习Andrew Ng 的课程 @ Coursera。

我正在研究逻辑回归。我了解到，根据数据，决策边界可以用简单的线性方程（一条线）以及更复杂的高阶多项式（曲线、圆形、奇数形状）来描述。

我有什么不是 100% 清楚的：决策边界的方程是如何确定的？例如：

这里的决策边界是一个圆，定义为

$\theta_0 + \theta_1x_1 + \theta_2x_2 + \theta_3x_1^2 + \theta_4x_2^2 = 0$

逻辑回归算法是否能够生成如此复杂的公式，还是需要手动调整？

1个回答

您需要一条额外的信息来确定决策边界：阈值概率的水平。给定一个阈值，当我们做出积极的决定时 $T$

g (θ_{0} + θ_{1} x_{1} + θ_{2} x_{2} + θ_{3} x_{1}^{2} + θ_{4} x_{2}^{2}) \geq T

$g(\theta_0 + \theta_1 x_1 + \theta_2 x_2 + \theta_3 x_1^2 + \theta_4 x_2^2) \geq T$

和消极的决定，当

g (θ_{0} + θ_{1} x_{1} + θ_{2} x_{2} + θ_{3} x_{1}^{2} + θ_{4} x_{2}^{2}) < T

$g(\theta_0 + \theta_1 x_1 + \theta_2 x_2 + \theta_3 x_1^2 + \theta_4 x_2^2) < T$

所以边界由下式给出

g (θ_{0} + θ_{1} x_{1} + θ_{2} x_{2} + θ_{3} x_{1}^{2} + θ_{4} x_{2}^{2}) = T

$g(\theta_0 + \theta_1 x_1 + \theta_2 x_2 + \theta_3 x_1^2 + \theta_4 x_2^2) = T$

在您的情况下，逻辑回归，是 sigmoid 函数，其倒数是对数几率，因此决策边界是 $g$

θ_{0} + θ_{1} x_{1} + θ_{2} x_{2} + θ_{3} x_{1}^{2} + θ_{4} x_{2}^{2} = \log (\frac{T}{1 - T})

$\theta_0 + \theta_1 x_1 + \theta_2 x_2 + \theta_3 x_1^2 + \theta_4 x_2^2 = \log \left(\frac{T}{1-T}\right)$

右手边只是一个常数。您可以完成正方形以找出在任何给定情况下这确定的几何曲线类型。

Andrew在右侧，如果不研究您要解决的具体问题，我通常不会建议这样做。值的假阴性和假阳性之间的成本权衡来设置阈值。 $0$ $T = 0.5$ $T$

但是我仍然不清楚：Andrew 是否说过“酷，我的数据可以用一个圆圈分隔，让我们使用圆圈方程 [...]”？算法是否解决了这个问题？

在这种情况下，肯定是第一件事！

逻辑回归没有内置功能来创建和使用原始特征的转换，并且在构建模型时通常使用探索性数据分析来辅助。

其他方法是：

但是对于逻辑回归的第一次尝试，查看数据并设计适当的特征是一种很好的做法。这几乎肯定是安德鲁试图传达的教训。

其它你可能感兴趣的问题