机器算法验证 - 通过原点回归的用途和陷阱是什么？ - 吾爱随笔录

通过原点回归的用途和陷阱是什么？

机器算法验证回归截距

2022-04-02 18:40:42

虚假的高 R 平方是通过原点回归的缺陷之一（即零截距模型）。如果预测变量不包含零，那么它是外推吗？通过原点回归的用途和其他陷阱是什么？有同行评议的文章吗？

3个回答

对我来说，主要问题归结为对未知过程施加强约束。

考虑一个规范 $y_t=f(x_t)+\varepsilon_t$ . 如果你不知道函数的确切形式 $f(.)$ ，您可以尝试线性近似：

f (z) \approx a + b x_{t}

$f(z)\approx a+b x_t$

注意，这个线性近似实际上是函数的一阶麦克劳林（泰勒）级数 $f(.)$ 大约 $x_t=0$ ：

f (0) = a

$f(0)=a$

\frac{\partial f (z)}{\partial z} = b

$\frac{\partial f(z)}{\partial z}=b$

因此，当您通过起源回归时，从麦克劳林级数的角度来看，您是在说 $f(0)=0$ . 这是对模型的非常强的约束。

在某些情况下，施加这样的约束是有意义的，这些是由理论或外部知识驱动的。我会争辩说，除非你有理由相信 $f(0)=0$ 通过起源回归不是一个好主意。与任何约束一样，这将导致参数估计不理想。

示例：金融中的CAPM。这里我们声明超额收益 $r-r_f$ 对股票的定义是其对超额市场收益的贝塔 $r_m-r_f$ ：

r - r_{f} = β (r_{m} - r_{f})

$r-r_f=\beta (r_m-r_f)$

该理论告诉我们，回归应该是通过起源。现在，一些从业者认为他们可以在 CAPM 关系之上获得额外的回报alpha ：

r - r_{f} = α + β (r_{m} - r_{f})

$r-r_f=\alpha+\beta (r_m-r_f)$

出于不同的原因，这两种回归都用于学术研究和实践。此示例向您展示了强约束（例如通过原点回归）在某些情况下是否有意义。

如果 rhs 变量和响应没有居中？然后（根据定义）估计的系数是有偏差的。

方程组的最小二乘解

 0 = c1*x1_1 + c2*x1_2 + ... cn*x1_n
 0 = c1*x2_1 + c2*x2_2 + ... cn*x2_n
 0 = c1*x3_1 + c2*x3_2 + ... cn*x3_n
 ...
 0 = c1*xn_1 + c2*xn_2 + ... cn*xn_n

始终为 c1=0, c2=0, ...，误差为零，因此使用标准工具，例如。Perl 模块 Statistics::Regression，通过原点做回归，会得出标准差 = 0，除以标准差时会崩溃。

其它你可能感兴趣的问题

上一篇使用 R 创建指定大小的点簇下一篇物种丰富度、优势度和多样性差异