语境:
我正在使用人口普查局的美国社区调查(ACS) 数据,这些数据是在不同空间尺度上聚合的样本(不是完整的枚举)。每个 ACS 估计都有一个误差范围(很容易转换为标准误差,SE)。我试图通过使用估计值和相关 SE 随机生成 X 和 Y 值来生成回归线“包络”。换句话说,考虑到与 X 和 Y 估计值相关的不确定性水平,我想看看回归线会是什么样子。
问题:
我的方法起初看起来很简单:使用蒙特卡罗技术,使用估计值(X 和 Y)和相关的误差分布(X_SE 和 Y_SE)生成随机 x 和 y,绘制 OLS 回归结果,然后使用估计值绘制 OLS 结果(X 和 Y) 得到中心回归线。我观察到的是,随着 SE 的增加(相对于估计值),回归线簇呈现“更平坦”的斜率——远离使用估计值 X 和 Y 生成的回归线。这是一个例子(灰线是来自 1000 次迭代的回归线,红线是估计值 x 和 y 的回归):
ID X X_SE Y Y_SE
1 22752 2350 644 31
2 20251 1554 498 27
3 31041 1982 868 22
4 20838 3643 544 58
5 26876 3665 725 57
6 24656 2501 626 31
7 25291 4052 726 55
8 28003 5795 772 70
9 21254 2442 606 44
10 22977 1639 669 31
11 19870 2560 524 95
12 26983 3577 782 64
13 20709 2781 593 46
14 22213 3116 647 71
15 19401 1875 496 70
16 27137 1812 814 42
在网上冲浪后,我发现了一些有用的链接。标准回归模型的一个假设似乎是“回归变量 [自变量] 已被精确测量,或观察到没有错误;因此,这些模型仅考虑因变量或响应中的错误”。我相信我遇到的问题被称为errors-in-variables models。谷歌搜索这个术语(以及我遇到的其他术语,例如回归稀释和衰减) 返回许多链接——主要是散布在许多学科中的文章。但是没有人能说明我在解决我的问题时应该遵循什么确切的过程,我也没有在入门或中级统计教科书中找到相关信息。所以我的问题是:
我在估计回归线范围时采用的 MC 方法是否很好?如果是这样,是否可以在 MC 子程序中使用标准回归模型(当然假设满足固定自变量以外的相关数据分布要求)?
我应该如何估计中心回归线?我遇到了一些
R
库,例如Deming
和Model II
似乎可以解决我的问题,但是,在那些考虑到每个 X 的 SE 值的例程中,我没有看到一个选项。但更重要的是,我并不完全理解这些函数究竟做了什么。对此的任何清晰观点将不胜感激。