算法选择原理(随机森林 vs 逻辑回归 vs SVM)

数据挖掘 机器学习 算法
2022-02-19 18:22:10

我想了解选择机器学习算法的标准,即在哪种情况下选择哪种算法的准则是什么?

我知道的原因是:

  1. 如果我们想建议对 y 变量的影响对任何 x 变量的变化的影响,则选择逻辑回归。
  2. 随机森林适用于混合数据,对分类数据非常有效。此外,它首先进行特征选择(因此不需要降维)。
  3. 由于处理时间长,因此不能选择具有高特征和多类别数据的随机森林。
  4. SVM 可以很好地处理紧密放置的数据点,例如在狗与猫的图像处理识别中。

但是这些不足以选择任何人,因为我没有任何理由不选择哪种算法,例如何时选择 SVM 而不是 Logistic 回归或 RF 而不是 Logistic 回归。

我唯一的理由是性能,所以我运行所有算法以及我选择的表现最好的算法(但这不是正确的方法)。

1个回答

我想我会建议作为起点,并通过添加以下内容来扩展您的建议

  1. 了解您正在使用的数据类型及其特征(分类、监督/非监督、数据大小等)。

  2. 了解您需要的准确度要求、时间框架和计算能力与准确度,并真正回答“为什么,我要解决这个问题?”

回答完这些问题后,您至少可以稍微缩小您可能使用的范围(并消除您显然认为不合适的那些)。在那之后,我认为这是与处理类似数据集和问题的其他人的反复试验、经验和比较。

我在 scikitlearn 网站的收藏夹中找到了这张粗略的流程图。老实说,不确定我在哪里找到的。随心所欲地接受它,希望它有所帮助:

https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html