破解线性回归

机器算法验证 回归 方差 线性模型
2022-04-04 18:44:37

假设我对一些产生以下数据的数据执行线性回归R2

RSS=1966815.13

TSS=2145213.91

R2=0.083

现在假设我对数据进行存储(取连续相等大小窗口的平均值)并执行完全相同的线性回归。这一次R2是:

RSS=1187.56

TSS=4758.32

R2=0.75

我刚刚在这里做了什么?

我显然没有提高模型对原始数据的解释能力,但我已经破解了R2通过平均。为什么会发生这种情况的偏差/方差论点是什么?

图形表示:

在此处输入图像描述

编辑:我减少了数据的总方差,但偏差不受影响。什么时候(如果有的话)这是一种有效的统计方法?

2个回答

您减少了数据中的(总)方差,使其更易于解释。

感谢同样的y-axis 限制,很容易看出,您的第一个示例的数据在这个方向上的分布比在x-轴方向。您的线性回归模型确实捕捉到了增加的轻微趋势y随着增加x,但它并没有告诉你任何关于沿y-轴当差异x很小,即在回归线附近。这是通过残差平方和来衡量的(RSS) 你包括在内。

换句话说,还有很多“错误”,在这个模型中没有考虑到。自从R2表示解释方差与总方差之间的比率,它仍然很小。

在您的第二组数据中,大多数变化都可以用相同的线性关系来解释xy. 只有一小部分方差无法解释。这反映在较小的比例上RSSTSS以及较小的总平方和值(TSS) 也是如此。

总而言之,相同的模型在第二种情况下表现得更好,因为该组数据更容易解释(使用这种类型的模型)。


你还问过,如果有的话,这将是一个很好的统计方法。这取决于您要解决的问题

如果您想证明您的模型非常适合您的数据,并且只选择了它表现特别好的数据子集,那就是樱桃采摘的一个例子,如果故意这样做,这是一种欺骗性的做法。

另一方面,如果考虑方向的变化y-axis 是噪音,而您只想给出数据的简洁摘要,以某种平均值给出它可能是可以接受的(比如像您一样对数据进行分箱)。但是,回归线还可以很好地说明上升趋势,而无需操纵数据本身。它还明确了您的数据是什么以及您的模型是什么:假设y方差是噪声(或误差)在这里是隐含的。

编辑后的问题问:“什么时候(如果有的话)这是一种有效的统计方法?”

我想不出一个好的理由。

有人可能会争辩说,通过分箱取平均值,你已经“去噪”了数据。然而,这隐含地假设所有观察到的方差都是噪声。这似乎是一个非常可疑的假设。

通过肉眼,您的替代模型显示出与原始数据模型相同的线性趋势。所以你在那里没有得到任何理解。但是你的第二个模型大大夸大了它的解释力,我无法想象一个用例,它曾经是合法的事情。

此外......在建模过程之前对这样的数据进行分箱/平均基本上消除了您可以找到其他预测变量来改进您的模型的可能性。

如果您可以拟合的最佳模型的 R-sq 为 0.083……就这样吧。它发生了。一些数据系列天生就有很多无法解释的噪音。