如果我在线性回归模型中重复每个样本观察并重新运行回归,结果会受到什么影响?

机器算法验证 回归 线性模型 多重回归
2022-01-24 11:53:00

假设我有 N 个观察值,可能是多个因素,并且我将每个观察值重复两次(或 M 次),对这个新的 NM 大小集的回归与仅对原始观察值的回归相比如何?

2个回答

从概念上讲,您没有添加“新”信息,但您更准确地“了解”了该信息。

因此,这将导致相同的回归系数,具有更小的标准误差。

例如,在 Stata 中,expand x函数将每个观察值复制x次。

sysuse auto, clear
regress mpg weight length
------------------------------------------------------------------------------
         mpg |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
      weight |  -.0038515    .001586    -2.43   0.018    -.0070138   -.0006891
      length |  -.0795935   .0553577    -1.44   0.155    -.1899736    .0307867
       _cons |   47.88487    6.08787     7.87   0.000       35.746    60.02374
------------------------------------------------------------------------------

expand 5

regress mpg weight length
------------------------------------------------------------------------------
         mpg |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
      weight |  -.0038515   .0006976    -5.52   0.000    -.0052232   -.0024797
      length |  -.0795935   .0243486    -3.27   0.001    -.1274738   -.0317131
       _cons |   47.88487   2.677698    17.88   0.000     42.61932    53.15043
------------------------------------------------------------------------------

如您所见,以前无关紧要的系数(长度)在扩展模型中变得具有统计意义,表示您“知道”您所知道的精确度。

普通线性回归解决了的问题,其中是预测变量矩阵,是响应。如果您将每个样本重复次,则目标函数将保持不变(乘法因子除外)。因此,对于较大问题的最佳权重向量将与原始较小问题的权重向量相同。

w=argminw||Xwy||2
XyMM