机器算法验证 - 为什么添加解释变量时残差平方和不增加？ - 吾爱随笔录

机器算法验证回归优化计量经济学直觉平方和

2022-03-20 23:40:01

在我的关于 OLS 的计量经济学教科书（Introductory Econometrics）中，作者写道，“当添加另一个解释变量时，SSR 必定下降。” 为什么？

2个回答

假设您有一个线性回归模型，为了便于表示，请考虑第一个然后是两个协变量。这概括为两组协变量。第一个模型是

I : y_{i} = β_{0} + β_{1} x_{1 i} + ϵ_{i}

$I \colon y_i=\beta_0 + \beta_1 x_{1i}+\epsilon_{i}$ 第二个模型是

I I : y_{i} = β_{0} + β_{1} x_{1 i} + β_{2} x_{2 i} + ϵ_{i}

$II \colon y_i = \beta_0 + \beta_1 x_{1i} + \beta_2 x_{2i} + \epsilon_i$ 这是通过最小化残差平方和来解决的，对于我们想要最小化的模型一

{SSR}_{1} = \sum_{i} (y_{i} - β_{0} - β_{1} x_{1 i})^{2}

$\text{SSR}_1 = \sum_i (y_i-\beta_0-\beta_1 x_{1i})^2$ 对于模型二，您要最小化

{SSR}_{2} = \sum_{i} (y_{i} - β_{0} - β_{1} x_{1 i} - β_{2} x_{2 i})^{2}

$\text{SSR}_2 = \sum_i (y_i-\beta_0-\beta_1 x_{1i}-\beta_2 x_{2i})^2$ . 假设您已经找到了模型 1 的正确估计量，那么您可以通过为模型 2 选择相同的值来获得完全相同的残差平方和

β_{0}, β_{1}

$\beta_0, \beta_1$ 并让

β_{2} = 0

$\beta_2=0$ . 现在，您可以通过搜索更好的值来找到更低的平方和残差

β_{2}

$\beta_2$ .

总而言之，模型是嵌套的，从某种意义上说，我们可以用模型 1 建模的所有东西都可以被模型 2 匹配，模型 2 比模型 1 更通用。因此，在优化中，我们对模型 2 有更大的自由度，因此可以总能找到更好的解决方案。

这实际上与统计无关，而是关于优化的一般事实。

SSR 是衡量数据和估计模型之间差异的指标。

如果您可以选择考虑另一个变量，那么如果这个变量包含更多信息，那么拟合自然会更紧密，这意味着 SSR 更低。

其它你可能感兴趣的问题