预测是判断统计学家能力的“黄金标准”吗?

机器算法验证 预测模型 造型 解释
2022-02-26 11:04:58

上周末我正在阅读 Faraway 的R(第 1 版)教科书线性模型。Faraway有一章叫做“统计策略和模型不确定性”。他描述(第 158 页)他使用一个非常复杂的模型人为地生成了一些数据,然后他要求他的学生对数据进行建模,并将学生的预测结果阅读结果进行比较。不幸的是,大多数学生过度拟合了测试数据并给出了完全不符合标准的预测值。为了解释这种现象,他写了一段令我印象深刻的东西:

” 模型如此不同的原因是学生按不同的顺序应用了各种方法。有的在转换之前进行变量选择,而另一些则相反。有的在模型更改后重复一种方法,而另一些则没有。我回顾了策略有几个学生使用过,但没有发现他们所做的任何明显错误。一个学生在计算他或她的预测值时出错,但其余的没有明显错误。这个作业的表现没有表现出来和考试有什么关系。

我被告知模型预测准确性是我们选择最佳模型性能的“黄金标准”。如果我没记错的话,这也是 Kaggle 比赛中常用的方法。但在这里 Faraway 观察到了一些不同性质的东西,模型预测性能可能无关具有相关统计人员的能力。换句话说,我们能否在预测能力方面建立最好的模型,并不取决于我们的经验。相反,它是由巨大的“模型不确定性”(盲目的运气?)决定的。我的问题是:在现实生活中的数据分析中也是如此吗?还是我对一些非常基本的东西感到困惑?因为如果这是真的,那么对真实数据分析的影响是巨大的:在不了解数据背后的“真实模型”的情况下,经验丰富的统计学家和没有经验的统计学家所做的工作并没有本质区别:两者都只是眼前的疯狂猜测可用的训练数据。

2个回答

我就这个问题问了我系的教授。他坦率地说,他对此一点也不感到惊讶。他建议用以下方式看待这个问题:Faraway 所做的只是一次实验,结果似乎与最终成绩没有相关性也就不足为奇了。但如果 Faraway 对同一组学生重复他的“实验”100 次,他确信学得更好的学生会表现得很好,类似于置信区间。所以在他看来,经验确实很重要,这只是一次社会实验,因为模型的不确定性而无法证明这一点。

学生的模型几乎都过拟合了。对于 n 个数据点,人们总是可以拟合 n-1 阶的完美多项式。这样的模型已经过期了,不会留下任何随机误差。学生们似乎也犯了类似的过拟合错误,但可能具有不同的功能。

过度拟合是一个只能由学生犯的错误。这表明经验和教育是建模的必要条件。