有人可以给我一些关于何时选择 SVM 或 LR 的直觉吗?我想了解学习两者超平面的优化标准之间的区别背后的直觉,其中各自的目标如下:
- SVM:尝试最大化最近的支持向量之间的边距
- LR:最大化后验类概率
让我们考虑 SVM 和 LR 的线性特征空间。
我已经知道的一些差异:
- SVM 是确定性的(但我们可以使用 Platts 模型进行概率评分),而 LR 是概率性的。
- 对于内核空间,SVM 更快(仅存储支持向量)
有人可以给我一些关于何时选择 SVM 或 LR 的直觉吗?我想了解学习两者超平面的优化标准之间的区别背后的直觉,其中各自的目标如下:
让我们考虑 SVM 和 LR 的线性特征空间。
我已经知道的一些差异:
线性 SVM 和逻辑回归通常在实践中表现相当。如果您有理由相信您的数据不会是线性可分的(或者您需要比 LR 通常容忍的异常值更稳健),请使用带有非线性内核的 SVM。否则,请先尝试逻辑回归,然后看看如何使用更简单的模型。如果逻辑回归失败,请尝试使用 RBF 等非线性内核的 SVM。
编辑:
好的,我们来谈谈目标函数是从哪里来的。
逻辑回归来自广义线性回归。可以在此处找到有关此上下文中逻辑回归目标函数的良好讨论:https ://stats.stackexchange.com/a/29326/8451
支持向量机算法更具几何动机。我们不是假设一个概率模型,而是试图找到一个特定的最优分离超平面,我们在支持向量的上下文中定义“最优性”。我们没有任何类似于我们在逻辑回归中使用的统计模型的东西,即使线性情况会给我们类似的结果:实际上这只是意味着逻辑回归在生成“宽边距”分类器方面做得很好,因为那是所有 SVM 都在尝试做(特别是,SVM 正在尝试“最大化”类之间的边距)。
稍后我会尝试回到这个问题并更深入地了解杂草,我只是在一些事情的中间:p
查看Kevin Swersky的多伦多大学 CSC2515 支持向量机与逻辑回归。
我认为LR 的另一个优点是它实际上优化了可解释函数的权重(例如 Y = B0 + B1X1 +B2X2,其中 X1 和 X2 是您的预测变量/特征)。这意味着您可以将模型与笔、纸和基本的科学计算器一起使用,并根据需要获得概率输出。
您所要做的就是使用上述优化函数计算 Y,并将 Y 代入 sigmoid 函数以获得 0 到 1 之间的类概率。
这在某些领域/应用程序中可能很有用,尽管随着我们的进步越来越少,并且可以将数字插入应用程序并从模型中获取结果。