假设我有 N 个观察值,可能是多个因素,并且我将每个观察值重复两次(或 M 次),对这个新的 NM 大小集的回归与仅对原始观察值的回归相比如何?
如果我在线性回归模型中重复每个样本观察并重新运行回归,结果会受到什么影响?
机器算法验证
回归
线性模型
多重回归
2022-01-24 11:53:00
2个回答
从概念上讲,您没有添加“新”信息,但您更准确地“了解”了该信息。
因此,这将导致相同的回归系数,具有更小的标准误差。
例如,在 Stata 中,expand x函数将每个观察值复制x次。
sysuse auto, clear
regress mpg weight length
------------------------------------------------------------------------------
mpg | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
weight | -.0038515 .001586 -2.43 0.018 -.0070138 -.0006891
length | -.0795935 .0553577 -1.44 0.155 -.1899736 .0307867
_cons | 47.88487 6.08787 7.87 0.000 35.746 60.02374
------------------------------------------------------------------------------
expand 5
regress mpg weight length
------------------------------------------------------------------------------
mpg | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
weight | -.0038515 .0006976 -5.52 0.000 -.0052232 -.0024797
length | -.0795935 .0243486 -3.27 0.001 -.1274738 -.0317131
_cons | 47.88487 2.677698 17.88 0.000 42.61932 53.15043
------------------------------------------------------------------------------
如您所见,以前无关紧要的系数(长度)在扩展模型中变得具有统计意义,表示您“知道”您所知道的精确度。
普通线性回归解决了的问题,其中是预测变量矩阵,是响应。如果您将每个样本重复次,则目标函数将保持不变(乘法因子除外)。因此,对于较大问题的最佳权重向量将与原始较小问题的权重向量相同。
其它你可能感兴趣的问题