我一直在阅读有关数据窥探的信息,以及它如何意味着样本内错误不能提供样本外错误的良好近似值。
假设给定一个数据集,我们绘制并观察变量之间的二次关系。所以我们假设
这不是数据窥探吗?我们让数据影响我们的模型。那么这对系数有什么影响我们发现;在使用不同的输入变量进行未来预测时,它们是否被认为是可靠的?
我问是因为有无数关于回归的笔记/文章/书籍/等。他们建议查看数据,然后选择一个看起来很适合数据的模型。例如,这里作者有一些数据,尝试了一个线性模型,当发现它不令人满意时,他转向了一个更好地拟合数据的二次模型。同样,在这里,人们正在讨论对数转换,并且给原始发布者以下建议:
如果没有理论可以指导您,则对变量之间的关系进行图形探索,或者以两种方式查看拟合图与观察图将告诉您哪个模型是合适的。
那么当我们的模型基于对绘制数据的观察时,这些数据是否在窥探?如果不是,那么有人可以解释为什么这不是数据窥探吗?
如果是数据监听,那么:
- 这对样本外性能有什么影响?
- 我们应该做些什么来避免/克服回归模型中的数据窥探问题,以便我们获得良好的样本外性能?