我对 Spark 中的 MLlib 有疑问。(使用 Scala)
我试图了解 LogisticRegressionWithLBFGS 和 LogisticRegressionWithSGD 的工作原理。我通常使用 SAS 或 R 进行逻辑回归,但现在我必须在 Spark 上进行才能分析大数据。
变量选择是如何完成的?在 LogisticRegressionWithLBFGS 或 LogisticRegressionWithSGD 中是否尝试过不同的变量组合?像一个一个变量的显着性测试?或者与感兴趣的变量进行相关性计算?有没有BIC、AIC的计算来选择最好的模型?
因为模型只返回权重和截距...
我如何理解这些 Spark 功能并与我习惯使用的 SAS 或 R 进行比较?