自适应数据分析的想法是,随着您对数据的了解更多,您可以更改分析数据的计划。在探索性数据分析 (EDA) 的情况下,这通常是一个好主意(您经常在数据中寻找不可预见的模式),但对于验证性研究,这被广泛接受为一种非常有缺陷的分析方法(除非所有这些步骤已明确定义并提前适当计划)。
话虽如此,自适应数据分析通常是有多少研究人员实际进行分析,这让统计学家非常沮丧。因此,如果人们能够以一种统计有效的方式做到这一点,它将彻底改变统计实践。
以下科学文章声称找到了一种方法(我为付费墙道歉,但如果您在大学,您可能可以访问):Dwork 等人,2015,可重复使用的坚持:在自适应数据分析中保持有效性.
就个人而言,我一直对发表在《科学》杂志上的统计文章持怀疑态度,这一篇也不例外。事实上,在阅读了两遍文章(包括补充材料)之后,我(完全)无法理解为什么作者声称他们的方法可以防止过度拟合。
我的理解是他们有一个保留数据集,他们将重复使用。他们似乎声称通过对保留数据集的验证性分析的输出进行“模糊测试”,可以防止过度拟合(值得注意的是,如果对训练数据的计算统计量足够远,模糊测试似乎只是增加了噪音来自对保留数据的计算统计)。据我所知,没有真正的理由应该防止过度拟合。
我对作者的提议有误吗?我忽略了一些微妙的影响吗?或者科学是否 认可了迄今为止最糟糕的统计实践?