当我们绘制数据然后在回归模型中使用非线性变换时,我们是否在窥探数据?

机器算法验证 回归 机器学习 造型 模型选择 偏见
2022-02-01 09:17:11

我一直在阅读有关数据窥探的信息,以及它如何意味着样本内错误不能提供样本外错误的良好近似值。

假设给定一个数据集(x1,y1),(x2,y2),...,(xn,yn),我们绘制并观察变量之间的二次关系。所以我们假设

yi=β0+β1xi+β2xi2+ε,
在哪里ε是表示噪声的变量。

这不是数据窥探吗?我们让数据影响我们的模型。那么这对系数有什么影响β0,β1,β2我们发现;在使用不同的输入变量进行未来预测时,它们是否被认为是可靠的?

我问是因为有无数关于回归的笔记/文章/书籍/等。他们建议查看数据,然后选择一个看起来很适合数据的模型。例如,这里作者有一些数据,尝试了一个线性模型,当发现它不令人满意时,他转向了一个更好地拟合数据的二次模型。同样,在这里,人们正在讨论对数转换,并且给原始发布者以下建议:

如果没有理论可以指导您,则对变量之间的关系进行图形探索,或者以两种方式查看拟合图与观察图将告诉您哪个模型是合适的。

那么当我们的模型基于对绘制数据的观察时,这些数据是否在窥探?如果不是,那么有人可以解释为什么这不是数据窥探吗?

如果是数据监听,那么:

  1. 这对样本外性能有什么影响?
  2. 我们应该做些什么来避免/克服回归模型中的数据窥探问题,以便我们获得良好的样本外性能?
4个回答

有一种方法可以估计样本外性能的后果,前提是建模中的决策过程可以充分转变为自动化或半自动化过程。这是在数据集的多个引导重新采样上重复整个建模过程。这与估计建模过程的样本外性能差不多。

回想一下引导原理

自举的基本思想是,从样本数据(样本→总体)推断总体可以通过对样本数据重新采样并从重新采样的数据(重新采样→样本)执行关于样本的推断来建模。由于总体是未知的,因此样本统计量与其总体值的真实误差是未知的。在 bootstrap-resamples 中,“人口”实际上是样本,这是已知的;因此,从重采样数据(重采样→样本)中推断出“真实”样本的质量是可测量的。

遵循该原则,如果您对数据的多个引导重新采样重复完整的模型构建过程,然后测试每个生成的模型在完整数据集上的性能,您就可以合理估计建模过程在完整的数据集可能适用于原始人口。因此,在您的示例中,如果有一些定量标准可以确定首选预测变量的二次而不是线性建模,那么您可以将该标准与每个重新采样的所有其他建模步骤一起使用。

显然最好避免这种数据窥探。单独查看预测变量或结果的分布等内容并没有什么坏处您可以查看预测变量之间的关联,以期将相关预测变量组合成单个汇总度量。您可以使用主题知识作为指导。例如,如果您的结果是严格的正数并且具有已知与测量值成正比的测量误差,那么从理论上讲,对数变换很有意义。这些方法可以导致数据转换不受预测结果关系的影响。

另一种有用的方法是从一个高度灵活的模型开始(前提是该模型没有过度拟合的风险),然后从该模型中拉回一个更简洁的模型。例如,使用连续预测器,您可以从具有多个节点的样条拟合开始,然后对节点逐渐减少的嵌套模型进行方差分析,以确定有多少节点(甚至是简单的线性项)可以提供统计上无法区分的结果.

Frank Harrell 的课程笔记书籍为在没有数据窥探的情况下可靠建模的方法提供了详细的指导。如果您在没有窥探的情况下构建模型,上述验证建模方法的过程也很有价值。

这是从机器学习的角度来看的基本答案。

您考虑的模型类越复杂和越大,您就越能更好地拟合任何数据集,但您对样本外性能的信心就越低。换句话说,您越有可能过度拟合您的样本。

在数据窥探中,人们正在通过可能非常大且灵活的模型空间进行搜索。因此,找到过拟合模型的机会变得更大。

如果与数据集大小相比,模型空间足够有限,我们可以证明这不会发生(在一定条件下很有可能)。

...

因此,数据窥探和有原则的调查之间的区别可以很好地区分为:先验地,人们愿意考虑的模型空间。

例如,假设作者没有找到二次拟合,所以他们继续研究三次、四次……,最终他们找到了一个很好的拟合度 27 多项式,并声称这真正模拟了数据生成过程。我们会非常怀疑。同样,如果他们尝试对变量的任意子集进行对数转换,直到出现拟合。

另一方面,假设计划是在三次之后放弃,并说该过程无法以这种方式解释。最多 3 次多项式的空间是非常有限和结构化的,所以如果确实发现了三次拟合,我们可以确信这不是巧合。

...

因此,通常防止“错误发现”的一种方法,正如我们通常所说的,是将自己先验地限制在特定的受限模型集合中。这类似于在实验工作中预先注册假设。

在回归中,模型空间已经非常有限,所以我认为在发现虚假关系之前必须尝试很多不同的技巧,除非数据集很小。

这是从物理学角度的答案。如果您进行了过多的“拟合”,那么您可能正在窥探数据。但是,如果您按照我们在物理学中的意思“建模”,那么您实际上是在做您应该做的事情。

如果您的响应变量是分贝,而您的解释变量是诸如功率输入和材料属性之类的东西,那么如果您没有在对数空间中建模,那么您做错了。这可以是指数模型或对数变换。

许多自然现象导致非正态分布。在这些情况下,您应该使用允许您合并该分布结构(泊松回归、负二项式、对数线性、对数正态等)的分析方法或转换数据,记住这也将转换方差和协方差结构。

即使您没有文献中的示例支持使用某些不正常的特定分布,如果您可以通过对为什么该分布可能具有物理意义的最小解释或通过类似的优势来证明您的主张是正确的文献中报道的分布式数据,那么我认为您有理由选择给定的分布作为模型。

如果你这样做,那么你是在建模,而不是拟合,因此不是数据窥探。

在您引用的文章中很好地解释的约束范围内,迭代地找到适合具有错误项的数据的最佳分析模型是可以接受的

但也许您要问的是,当您使用这种模型来预测未用于生成模型的样本外数据时,它的有效性是什么。如果可以合理地假设用于计算模型的数据生成机制和生成新数据的机制相同,那么使用您获得的模型并没有错。

但是你可能对这个涉及频率统计本质的断言有一些合理的怀疑。在开发模型时,您会获得最适合数据的参数。要获得更好的模型,您需要添加更多数据。但是,如果您添加不知道它们是否属于用于开发模型的相同数据生成机制的数据点,这将无济于事。

这里的问题是关于新数据点属于同一机制的可能性有多大。这会将您直接带到贝叶斯分析,通过该分析您可以确定模型参数的概率分布,并查看该分布如何随着您添加更多数据而变化。有关贝叶斯分析的介绍性解释,请参见此处有关贝叶斯回归的一个很好的解释,请参见此处