机器算法验证 - 预测是判断统计学家能力的“黄金标准”吗？ - 吾爱随笔录

上周末我正在阅读 Faraway 的R（第 1 版）教科书线性模型。Faraway有一章叫做“统计策略和模型不确定性”。他描述（第 158 页）他使用一个非常复杂的模型人为地生成了一些数据，然后他要求他的学生对数据进行建模，并将学生的预测结果与阅读结果进行比较。不幸的是，大多数学生过度拟合了测试数据并给出了完全不符合标准的预测值。为了解释这种现象，他写了一段令我印象深刻的东西：

” 模型如此不同的原因是学生按不同的顺序应用了各种方法。有的在转换之前进行变量选择，而另一些则相反。有的在模型更改后重复一种方法，而另一些则没有。我回顾了策略有几个学生使用过，但没有发现他们所做的任何明显错误。一个学生在计算他或她的预测值时出错，但其余的没有明显错误。这个作业的表现没有表现出来和考试有什么关系。 ”

我被告知模型预测准确性是我们选择最佳模型性能的“黄金标准”。如果我没记错的话，这也是 Kaggle 比赛中常用的方法。但在这里 Faraway 观察到了一些不同性质的东西，模型预测性能可能无关具有相关统计人员的能力。换句话说，我们能否在预测能力方面建立最好的模型，并不取决于我们的经验。相反，它是由巨大的“模型不确定性”（盲目的运气？）决定的。我的问题是：在现实生活中的数据分析中也是如此吗？还是我对一些非常基本的东西感到困惑？因为如果这是真的，那么对真实数据分析的影响是巨大的：在不了解数据背后的“真实模型”的情况下，经验丰富的统计学家和没有经验的统计学家所做的工作并没有本质区别：两者都只是眼前的疯狂猜测可用的训练数据。