通过原点回归的用途和陷阱是什么?

机器算法验证 回归 截距
2022-04-02 18:40:42

虚假的高 R 平方是通过原点回归的缺陷之一(即零截距模型)。如果预测变量不包含零,那么它是外推吗?通过原点回归的用途和其他陷阱是什么?有同行评议的文章吗?

3个回答

对我来说,主要问题归结为对未知过程施加强约束。

考虑一个规范yt=f(xt)+εt. 如果你不知道函数的确切形式f(.),您可以尝试线性近似:

f(z)a+bxt

注意,这个线性近似实际上是函数的一阶麦克劳林(泰勒)级数f(.)大约xt=0

f(0)=a
f(z)z=b

因此,当您通过起源回归时,从麦克劳林级数的角度来看,您是在说f(0)=0. 这是对模型的非常强的约束。

在某些情况下,施加这样的约束是有意义的,这些是由理论或外部知识驱动的。我会争辩说,除非你有理由相信f(0)=0通过起源回归不是一个好主意。与任何约束一样,这将导致参数估计不理想。

示例:金融中的CAPM这里我们声明超额收益rrf对股票的定义是其对超额市场收益的贝塔rmrf

rrf=β(rmrf)

该理论告诉我们,回归应该是通过起源。现在,一些从业者认为他们可以在 CAPM 关系之上 获得额外的回报alpha :

rrf=α+β(rmrf)

出于不同的原因,这两种回归都用于学术研究和实践。此示例向您展示了强约束(例如通过原点回归)在某些情况下是否有意义。

如果 rhs 变量和响应没有居中?然后(根据定义)估计的系数是有偏差的。

方程组的最小二乘解

 0 = c1*x1_1 + c2*x1_2 + ... cn*x1_n
 0 = c1*x2_1 + c2*x2_2 + ... cn*x2_n
 0 = c1*x3_1 + c2*x3_2 + ... cn*x3_n
 ...
 0 = c1*xn_1 + c2*xn_2 + ... cn*xn_n

始终为 c1=0, c2=0, ...,误差为零,因此使用标准工具,例如。Perl 模块 Statistics::Regression,通过原点做回归,会得出标准差 = 0,除以标准差时会崩溃。