贝叶斯错误率是一个理论界限,它确定给定一些数据的分类问题的最低可能错误率。我想知道回归算法的情况是否存在等效概念。我的目标是确定我的回归算法的误差与理论界限有多远,以此来评估我离最佳解决方案有多远。有没有办法获得给定数据集的最低回归误差的界限?
理论界限 - 回归误差
数据挖掘
回归
线性回归
2021-10-11 16:23:09
2个回答
我意识到这个问题是一年多前提出的,但我认为一种可能性是使用偏差方差分解来计算错误率的下限。
本质上,错误率被写为三个项的总和,即偏差、方差和不可约误差。了解这些术语的一个很好的来源是An Introduction to Statistical Learning。
假设真函数 () 位于我们的机器学习模型能够拟合的函数家族中,并且在我们拥有的训练数据量达到无穷大时会受到限制。然后,如果我们的机器学习模型具有有限数量的参数,则偏差和方差都将为零。因此,实际误差将简单地等于不可约误差。
例如,假设我们的真实数据与高斯噪声呈线性关系:. 最佳估计量之一显然是线性回归,,并且,随着我们添加更多的训练示例,估计的系数和将接近和, 分别。所以,我们希望达到的最佳误差(假设平方损失)是相等的,与数据生成本身相关的固有误差/不可减少的噪声
在实践中,计算不可约误差很困难(不可能?),因为它需要了解生成数据的真实过程。但是,这种批评也适用于贝叶斯错误,因为这需要了解真实的类概率。
是的,这将是响应变量与真实或实际回归线的距离平方和(如果你知道的话)。
其它你可能感兴趣的问题