我想知道,无论我们谈论将回归线拟合到给定数据集会减少偏差并增加方差的偏差 - 方差困境,还是我们谈论模型适合数据集而不泛化到新数据的过度拟合,这有什么区别数据集。
本质上,过度拟合意味着在偏差和方差之间进行相同的权衡,不是吗?
我想知道,无论我们谈论将回归线拟合到给定数据集会减少偏差并增加方差的偏差 - 方差困境,还是我们谈论模型适合数据集而不泛化到新数据的过度拟合,这有什么区别数据集。
本质上,过度拟合意味着在偏差和方差之间进行相同的权衡,不是吗?
我认为它们是相关的,但不是相同的问题。
例如,完全有可能在模型“过度拟合”之前就陷入偏差方差困境。例如,在生存分析中,人们可能会合理地争辩说,恒定风险(指数分布)是如此不可能,以至于您应该始终“支付”使用更灵活的分布(如 Weibull 分布)的保护。还有许多其他示例,在您真正达到“过度拟合”之前,人们可能会努力降低估计的精度。尤其是在您经常工作的领域非常接近零(想到环境流行病学)。
对我来说,过度拟合也意味着对模型的解释存在问题。如果一个人有一个回归方程,比如y = b1 + b2*x + b3*(x^2) + b4*(x^3) + b5*(x^4) + b6*(x^5)你有一个超出偏差/精度权衡的问题,以及如何将高阶多项式关系有意义地解释到该领域。
我将“过度拟合”视为偏差-方差权衡(我不会称其为“困境”)的一个例子,它在方差结束时已经走得太远了。
对于偏差-方差权衡,我想到的通常示例是线性模型的情况,其中所有协变量都有一些影响,但最好放弃那些影响可忽略不计的协变量,从而产生一些偏差以减少方差。
我想到的“过度拟合”的常见例子是想象真相包含在所考虑的模型类中,这样事情就可以不偏不倚,但是通过添加参数来扩展模型类,使其过于灵活,因此拟合模型与观察到的数据非常相似,但不一定与基础总体或过程相似。
我实际上非常不喜欢“过度拟合”这个词。我宁愿说“拟合太复杂的模型”。