替代方案和逻辑回归之间的实际和解释差异是什么?

机器算法验证 r 假设检验 物流 随机森林
2022-03-26 18:00:49

最近一个关于R 中逻辑回归替代方案的问题产生了各种答案,包括 randomForest、gbm、rpart、bayesglm 和广义加法模型。这些方法与逻辑回归之间的实际和解释差异是什么?相对于逻辑回归,他们做了(或不做)什么假设?是否适合假设检验?等等。

1个回答

免责声明:这肯定远不是问题的完整答案!

我认为在区分所有这些方法之前至少要考虑两个层面:

  • 是否拟合单个模型这有助于对立的方法,如逻辑回归与 RF 或梯度提升(或更一般的集成方法),并强调参数估计(具有相关的渐近或引导置信区间)与分类或预测精度计算;
  • 是否考虑所有变量这是特征选择的基础,从某种意义上说,惩罚或正则化允许处理“不规则”数据集(例如,大p和/或小n) 并提高研究结果的普遍性。

以下是我认为与该问题相关的其他几点。

如果我们考虑多个模型——相同的模型适合可用数据的不同子集(个体和/或变量),或者不同的竞争模型适合相同的数据集——可以使用交叉验证来避免过拟合并执行模型或特征选择,尽管 CV 不限于这种特殊情况(例如,它可以与GAM或惩罚性 GLM 一起使用)。此外,还有传统的解释问题:更复杂的模型通常意味着更复杂的解释(更多参数、更严格的假设等)。

Gradient Boosting 和 RFs 克服了单一决策树的局限性,这要归功于Boosting的主要思想是结合几个弱学习算法的输出以建立更准确和稳定的决策规则,以及Bagging我们对结果进行“平均”重新采样的数据集。总而言之,与提供模型明确规范的更“经典”模型相比,它们通常被视为某种黑匣子(我可以想到三类模型:参数半参数非参数),但是我认为在另一个主题下进行的讨论是两种文化:统计与机器学习?提供有趣的观点。

这里有几篇关于特征选择和一些机器学习技术的论文:

  1. Saeys, Y, Inza, I 和 Larrañaga, P.生物信息学特征选择技术综述,生物信息学 (2007) 23(19): 2507-2517。
  2. Dougherty, ER, Hua J 和 Sima, C.特征选择方法的性能,Current Genomics (2009) 10(6): 365–374。
  3. Boulesteix, AL 和 Strobl, C.错误率估计中的最优分类器选择和负偏差:高维预测的实证研究,BMC Medical Research Methodology (2009) 9:85。
  4. Caruana, R 和 Niculescu-Mizil, A.监督学习算法的实证比较第 23 届机器学习国际会议论文集(2006 年)。
  5. Friedman, J, Hastie, T 和 Tibshirani, R.加性逻辑回归:增强的统计视图,安。统计学家。(2000) 28(2):337-407。(有讨论)
  6. Olden, JD, Lawler, JJ 和 Poff, NL。没有眼泪的机器学习方法:生态学家入门,Q Rev Biol。(2008) 83(2):171-93。

当然, Hastie 和 coll.的 The Elements of Statistical Learning充满了插图和参考资料。另请务必查看 Andrew Moore 的Statistical Data Mining Tutorials