我的理解是机器学习和统计模型之间的主要区别在于,后者“假设”某种类型的数据分布并基于我们获得的不同模型范式以及统计结果(例如 p 值、F 统计, t-stat 等)。但在机器学习的情况下,我们不关心数据的分布,而是对预测更感兴趣。
当我浏览 Mllib 文档时,我发现对于线性回归,我们正在指定一个分布。但是 Mllib 是一个机器学习包。所以,我有以下问题:
1)我对机器学习和统计方法的理解是错误的吗?
2) spark 是否使用线性回归和 GLM 的统计建模?
谢谢!
注意:关于机器学习和统计方法之间的区别有很多精彩的帖子。但这更多与 spark MLLIB 有关。