机器学习实现的趋势是让实现者的事情变得越来越容易,这是一个非常自然的工程问题。轻松的 API 可以创建您想要的任何类型的模型,轻松的基础架构来管理数据和模型的版本,轻松地将模型部署为 API。其中一个趋势是AutoML,这是一种在极少数通用超参数上创建模型(在众多模型中)的端到端过程,隐藏了越来越多的常用统计过程,所有这些都旨在减少对理解许多难以学习的统计实践的细微差别。
在整个光谱的另一端是解决许多科学领域发生的可复制性危机的方法,主要是由于统计数据的使用不当:统计和效果显着性的混淆,p-hacking,HARK-ing,统计数据的其他肤浅使用. 所有这一切都是在要求使用这些工具的人更多更好地了解统计思维的细微差别。
缺少有关 AutoML 内部的详细信息:它是否运行 SVM 、 LR和具有多个内核、超参数等的 RF?它是否遵循像 Bonferroni 修正这样的基本防守统计数据?或者它只是直接跳入挑选出他最好的 p 值?
我将其设置为工程中的易用性和统计过程中的正确思想之间的二分法。AutoML 似乎是创建成功模型的好东西。但后来我想知道他们是否不仅忽略了统计思维的整个历史,甚至逃避它。
AutoML 研究人员是否成功地考虑到了统计上的细微差别,或者他们是否通过忽略细微差别(在太多模型中选择数据量)来解决更多模型问题?同样,那些统计学家是否也让制作有信誉的模型变得更加困难?作为一个附带问题,将 AutoML 描述为一个更有问题的统计过程是否准确?
我想一个 TL;DR 对这一切是 AutoML 只是 p-hacking 所有模型?