我的问题来自以下事实。我一直在阅读有关机器学习的文章、博客、讲座以及书籍。我的印象是机器学习从业者似乎对统计学家/计量经济学关心的许多事情漠不关心。特别是,机器学习从业者强调预测准确性而不是推理。
一个这样的例子发生在我在 Coursera 上学习 Andrew Ng 的机器学习时。当他讨论简单线性模型时,他没有提到估计量的 BLUE 属性,或者异方差性如何“使”置信区间“无效”。相反,他专注于梯度下降的实现和交叉验证/ROC 曲线的概念。我的计量经济学/统计学课程没有涵盖这些主题。
另一个例子发生在我参加 Kaggle 比赛时。我正在阅读其他人的代码和想法。很大一部分参与者只是把所有东西都扔进了 SVM/随机森林/XGBoost。
还有一个例子是关于逐步模型选择。这种技术被广泛使用,至少在网上和 Kaggle 上是这样。许多经典的机器学习教科书也涵盖了它,例如《统计学习导论》。但是,根据这个答案(非常有说服力),逐步模型选择面临很多问题,尤其是在“发现真正的模型”时。似乎只有两种可能:机器学习从业者不知道逐步的问题,或者他们知道但他们不关心。
所以这是我的问题:
- (一般而言)机器学习从业者是否专注于预测,因此不关心统计学家/经济学家关心的很多事情?
- 如果是真的,那么背后的原因是什么?是因为推理在某种意义上更困难吗?
- 网上有大量关于机器学习(或预测)的资料。但是,如果我有兴趣学习推理,我可以参考哪些在线资源?
更新:我刚刚意识到“推理”这个词可能意味着很多东西。我所说的“推理”是指诸如
做过原因或者引起? 或者更一般地说,它们之间的因果关系是什么?
既然“所有模型都是错误的”,那么我们的模型与真实模型的“错误”程度有多大?
给定一个样本的信息,我们能对总体说些什么,我们能说多少有信心?
由于我的统计知识非常有限,我什至不确定这些问题是否属于统计领域。但这些是机器学习从业者似乎并不关心的问题类型。也许统计学家也不在乎?我不知道。