《科学》杂志是否认可了分岔路径分析的花园?

机器算法验证 假设检验 过拟合 探索性数据分析 样本外 差分隐私
2022-01-28 06:14:51

自适应数据分析的想法是,随着您对数据的了解更多,您可以更改分析数据的计划。在探索性数据分析 (EDA) 的情况下,这通常是一个好主意(您经常在数据中寻找不可预见的模式),但对于验证性研究,这被广泛接受为一种非常有缺陷的分析方法(除非所有这些步骤已明确定义并提前适当计划)。

话虽如此,自适应数据分析通常是有多少研究人员实际进行分析,这让统计学家非常沮丧。因此,如果人们能够以一种统计有效的方式做到这一点,它将彻底改变统计实践。

以下科学文章声称找到了一种方法(我为付费墙道歉,但如果您在大学,您可能可以访问):Dwork 等人,2015,可重复使用的坚持:在自适应数据分析中保持有效性.

就个人而言,我一直对发表在《科学》杂志上的统计文章持怀疑态度,这一篇也不例外。事实上,在阅读了两遍文章(包括补充材料)之后,我(完全)无法理解为什么作者声称他们的方法可以防止过度拟合。

我的理解是他们有一个保留数据集,他们将重复使用。他们似乎声称通过对保留数据集的验证性分析的输出进行“模糊测试”,可以防止过度拟合(值得注意的是,如果对训练数据的计算统计量足够远,模糊测试似乎只是增加了噪音来自对保留数据的计算统计)。据我所知,没有真正的理由应该防止过度拟合。

我对作者的提议有误吗?我忽略了一些微妙的影响吗?或者科学是否 认可了迄今为止最糟糕的统计实践?

4个回答

作者有一篇博文从高层次上描述了这一点。

引用该帖子的开头:

为了减少变量的数量并简化我们的任务,我们首先选择一些有希望的变量,例如,与响应变量(收缩压)呈正相关的变量。然后,我们在选定的变量上拟合线性回归模型。为了衡量我们模型拟合的好坏,我们从我们最喜欢的统计学教科书中制作了一个标准的 F 检验,并报告了由此产生的 p 值。

Freedman 表明报告的 p 值具有高度误导性——即使数据是完全随机的,响应变量和数据点之间没有任何相关性,我们也可能会观察到显着的 p 值!偏差源于我们根据数据自适应地选择变量子集的事实,但我们从未考虑过这一事实。我们从中选择了大量可能的变量子集。我们通过查看数据选择了一个测试而不是另一个测试这一事实会产生一种选择偏差,使 F 检验的假设无效。

弗里德曼悖论有一个重要的教训。标准程序的显着性水平并没有捕捉到可以选择执行或省略的大量分析。出于这个原因,适应性是为什么研究结果经常是错误的主要解释之一,正如 Gelman 和 Loken 所说的那样,他们恰当地将适应性称为“分岔路的花园”。

我根本看不出他们的技术如何解决这个问题。所以在回答你的问题时,我相信他们没有解决分岔路花园,从这个意义上说,他们的技术会让人们产生一种虚假的安全感。与说“我使用了交叉验证”没有太大区别,这让许多使用非嵌套 CV 的人产生了一种错误的安全感。

在我看来,大部分博客帖子都指向他们的技术,作为如何防止 Kaggle 式竞赛的参与者攀登测试集梯度的更好答案。这很有用,但不直接解决分叉路径。感觉它具有 Wolfram 和谷歌新科学的味道,大量数据将接管。这种叙述的记录好坏参半,我一直对自动魔术持怀疑态度。

我确信我在这里过度简化了这种差异隐私技术,但这个想法在高层次上是有意义的。

当你得到一个算法来吐出好的结果时(哇,我的测试集的准确性真的提高了),你不想马上下结论。只有当改进明显大于以前的算法时,您才想接受它。这就是添加噪音的原因。

编辑:这个博客有很好的解释和 R 代码来演示噪声加法器的有效性, http://www.win-vector.com/blog/2015/10/a-simpler-explanation-of-differential-privacy/

声称添加噪声有助于防止过度拟合的说法在这里确实站得住脚,因为他们真正在做的是限制如何重用保留他们的方法实际上做了两件事:它限制了可以向坚持提出的问题的数量,以及每个答案中有多少揭示了坚持数据。

了解基准是什么可能会有所帮助:一方面,您可以坚持只使用一次holdout。这有明显的缺点。另一方面,如果您希望能够使用holdoutk次,你可以把它切成k不相交的碎片,并使用每个碎片一次。这种方法的问题是它会失去很多能量(如果你有n从你的holdout样本中的数据点开始,你现在得到的统计能力只有n/k样品)。

Dwork 等人的论文给出了一种方法,即使有对抗性提出的问题,它也可以为您提供大约n/k对于每个k你问的问题。此外,如果问题“不太讨厌”,他们可以做得更好(从某种意义上说,这有点难以确定,所以我们暂时忽略它)。

他们方法的核心是算法稳定性和过拟合之间的关系,这种关系可以追溯到 1970 年代后期(Devroye 和 Wagner 1978)。粗略地说,它说

“让A是一种采用数据集的算法X作为输入和输出谓词的描述q=A(X). 如果A是“稳定的”并且X从人口中抽取 iidP,那么经验频率qx和频率差不多q在人群中P。”

德沃克等人。建议使用稳定性概念来控制答案的分布如何随着数据集的变化而变化(称为差分隐私)。它有一个有用的属性,如果A()是差分私有的,那么也是f(A()), 对于任何函数f. 换句话说,为了进行稳定性分析,谓词q不一定是输出A--- 任何派生自的谓词A的输出也将享受同类型的保证。

现在有不少论文分析了不同的噪声添加程序如何控制过拟合。相对易读的是 Russo 和 Zou ( https://arxiv.org/abs/1511.05219 )。一些最近关于 Dwork 等人的初步工作的后续论文。也可能有助于查看。(免责声明:我有两篇关于这个主题的论文,最近的一篇解释了与自适应假设检验的联系:https ://arxiv.org/abs/1604.03924 。)

希望对大家有所帮助。

我反对你的第二句话。应该提前确定一个人的完整数据分析计划的想法是不合理的,即使在您试图确认预先存在的科学假设的情况下也是如此。相反,任何体面的数据分析都需要关注已获得的实际数据。持不同观点的研究人员通常是认为显着性检验是数据分析的开始和结束的研究人员,描述性统计、绘图、估计、预测、模型选择等几乎没有作用。在这种情况下,要求提前确定一个人的分析计划更有意义,因为p- 计算值需要在查看任何数据之前确定样本量和要进行的测试。这一要求阻碍了分析师,因此是不使用显着性检验的众多充分理由之一。

您可能会反对让分析师在看到数据后选择要做什么会导致过度拟合。确实如此,但优秀的分析师会展示他们进行的所有分析,明确说明数据中的哪些信息用于做出分析决策,并适当地使用交叉验证等方法。例如,通常可以根据获得的值分布重新编码变量,但是从 100 个预测变量中选择 3 个与因变量具有最接近观察关联的预测变量意味着关联的估计将是正的有偏的,根据回归到均值的原则。如果您想在预测上下文中进行变量选择,您需要在交叉验证折叠内选择变量,或者仅使用训练数据。