直线拟合斜率的意义

机器算法验证 回归 统计学意义 强大的
2022-03-22 00:03:24

我知道 LMS 线性回归斜率的显着性可以使用 r2 决定系数并在 F 表中查找适当的值来计算。但是,我正在考虑通过用重复的中值直线拟合替换 LMS 线性回归,甚至可能用数据的中值替换用于计算 r2 的平均值来使这个“更稳健”。有什么理由说明这不是一种有效的方法吗?例如,也许 F 表中的值是基于使用 LMS 和平均值的?

4个回答

不,F 检验基于残差平方和最小的假设是最优的。在稳健回归的情况下,它不成立,因为标准不同。
例如,实际上可以将稳健回归视为从异常值中剥离的数据的最小二乘;使用r2在这种情况下,对所有数据都增加了对异常值的高残差的无罪惩罚。

无需重新发明轮子。有一个替代的、稳健的 R^2 度量具有非常好的统计特性:

稳健的回归决定系数,O Renauda

编辑:*有什么理由为什么这不是一个有效的方法?* 一方面,这不会使您的方法更加稳健。关于这个问题有大量文献,幸运的是,已经设计了很好的工具来解决这些问题。

我会简单地使用标准回归输出来评估斜率系数的显着性。我的意思是看系数本身、它的标准误差、t stat(标准误差数 = 系数/标准误差)、p 值和置信区间。p 值直接解决了您所考虑的斜率或系数的统计显着性。

模型的 R 平方表示模型对因变量的解释程度,或模型对因变量的拟合程度。

每个系数的 p 值告诉您这些系数的统计显着性。

很多时候,您可以拥有一个具有高 R 平方的模型,但其中包含一个系数在统计上不显着的变量(其 p 值太高)。在这种情况下,它表明如果你去掉这个变量,你的模型几乎一样好。顺便说一句,你应该真正关注调整后的 R 方而不是 R 方。调整后的 R 平方正确地惩罚了模型具有更多的变量,并且可能使用不那么相关的自变量过度拟合数据。

应该可以使用置换检验来检验斜率的显着性。

在零值下,斜率为零。

在模型和空值的假设下,因此 y 和 x 之间没有关联。

因此,可以相对于 x 打乱 y 以获得检验统计量的排列分布。

p 值可以通过资助至少与零分布中观察到的统计量一样极端的值的比例来确定。