虚假的高 R 平方是通过原点回归的缺陷之一(即零截距模型)。如果预测变量不包含零,那么它是外推吗?通过原点回归的用途和其他陷阱是什么?有同行评议的文章吗?
通过原点回归的用途和陷阱是什么?
机器算法验证
回归
截距
2022-04-02 18:40:42
3个回答
对我来说,主要问题归结为对未知过程施加强约束。
考虑一个规范. 如果你不知道函数的确切形式,您可以尝试线性近似:
注意,这个线性近似实际上是函数的一阶麦克劳林(泰勒)级数大约:
因此,当您通过起源回归时,从麦克劳林级数的角度来看,您是在说. 这是对模型的非常强的约束。
在某些情况下,施加这样的约束是有意义的,这些是由理论或外部知识驱动的。我会争辩说,除非你有理由相信通过起源回归不是一个好主意。与任何约束一样,这将导致参数估计不理想。
示例:金融中的CAPM。这里我们声明超额收益对股票的定义是其对超额市场收益的贝塔:
该理论告诉我们,回归应该是通过起源。现在,一些从业者认为他们可以在 CAPM 关系之上 获得额外的回报alpha :
出于不同的原因,这两种回归都用于学术研究和实践。此示例向您展示了强约束(例如通过原点回归)在某些情况下是否有意义。
如果 rhs 变量和响应没有居中?然后(根据定义)估计的系数是有偏差的。
方程组的最小二乘解
0 = c1*x1_1 + c2*x1_2 + ... cn*x1_n
0 = c1*x2_1 + c2*x2_2 + ... cn*x2_n
0 = c1*x3_1 + c2*x3_2 + ... cn*x3_n
...
0 = c1*xn_1 + c2*xn_2 + ... cn*xn_n
始终为 c1=0, c2=0, ...,误差为零,因此使用标准工具,例如。Perl 模块 Statistics::Regression,通过原点做回归,会得出标准差 = 0,除以标准差时会崩溃。
其它你可能感兴趣的问题