什么时候应该使用变量中的错误?

机器算法验证 回归 偏见 变量错误
2022-04-07 13:38:26

我一直在阅读有关变量误差(也称为回归稀释和衰减)的信息,但我发现很难确定它是否适合我的设置。

我想计算相关性,并且我读到由于测量误差,计算出的相关性将被低估。

Wikipedia上,它说对于两个随机变量和估计β,θ

β^=β+ϵβ,θ^=θ+ϵθ,

其中是与估计相关的测量误差,相关性可以表示为ϵβϵθ

corr(β^,θ^)=ρRβRθ,

其中由下式计算Rβ

Rβ=var(β)var(β)+var(ϵβ)=var(β^)var(ϵβ)var(β^),

是等效计算的。因此,不衰减的Rθρ

ρ=corr(β^,θ^)RβRθ.

我的设置是我在不同位置对三个量(到参考线的距离、与参考线的角度、高度)进行多次测量。

我可以使用这个公式来计算相关性,将制造商给定的测量不确定性替换为吗?var(ϵβ)

编辑:测量是在土地测量中完成的。测量的量是距离、角度和高度,,从一个位置被认为是已知的测量站测量到许多位置未知的反射器站。也就是说,测量站有一个参考位置,以及到反射器站的距离,以及站的高度,以及与某个参考角度的角度差。d,θ,z

这三个量是通过激光测量的。根据给定的程序进行若干测量。

我在本报告中读到,由于测量不确定性,使用同一仪器进行的测量可能相互关联。因此,我怀疑从测量站到一个给定反射站测量的高度、距离和角度可能是相关的。此外,我怀疑测量过程会导致在不同站点(位置)测量的角度之间存在相关性。如果这个解释是错误的,请告诉我!

数据将在笛卡尔坐标系中呈现和进一步分析,(而测量值在球坐标系中)以便找到标准偏差,例如我需要计算协方差。(x,y,z)x=dsin(θ)

1个回答

描述测量误差的性质和程度对于统计学家来说是一种非常好的做法。实践的下一个重要含义是以上下文适当的方式解释结果和发现,这可能会使读者有些困惑,但不会传达错误的联想。例如,假设我们观察精神病院的住院病人并测量疼痛敏感性和成瘾物质的成功康复。在有关疼痛频率和强度的调查项目中,我们小心地将关联称为描述自我报告的疼痛。如果这些患者被认为有资格使用苯并类药物或阿片类药物,我们可能会期望那些不太可能对康复治疗产生反应的人的疼痛反应会被夸大。

在流行病学中,上述示例可以称为差异错误分类。即使是非差异错误分类也会对测量的关联产生影响。特别是,衰减是一个问题。然而,在大多数情况下,可以在存在衰减的情况下测量关联。因此,我们能够对关联进行推断,但非线性趋势中的预测值存在偏差,并且效果的置信区间可能太大。对于推论,衰减问题并不像看起来那么严重。

如果我们对测量误差进行了估计,那么就可以扩展最大似然方法来获得关联的无偏估计。特别是,这将涉及使用 EM 算法。事实证明,这等效于潜在变量方法,其中在测量误差变量和 y 之间添加了一个潜在变量。