为什么比率在统计建模中是“危险的”?

机器算法验证 回归 可能性 分布 正态分布 模型
2022-03-23 14:27:07

为什么比率在统计建模中是“危险的”?

今天有朋友告诉我,在回归模型中使用两个变量的比值作为变量是不明智的,不如在同一个回归模型中使用这两个相同的变量作为变量。然而,当我问为什么会这样时,我没有得到答案。

我花了一些时间尝试阅读此内容并发现以下几点:

  • 在概率的背景下,比率并不总是被定义。例如,柯西概率分布是两个正态分布的比率。柯西分布的均值未定义。

  • 比率存在“虚假相关”的问题。例如,如果您从两个独立的正态分布中生成随机点 - 然后取每一对的比率:您会发现该比率可以显示统计相关性,即使数据来自独立和随机的正态分布。

  • 比率有可能变成非常大的数字,并有被零除的风险。

  • 假设,如果两个变量之间的比率图不是对角线(45 度)并且不通过原点 - 该比率是没有意义的(我不明白为什么)。

这些是我确定的关于为什么比率在统计建模中可能是“危险”的一些观点,并且使用比率中的分子和分母变量作为回归模型(或任何统计模型)的变量可能会更好 -但是,为什么在统计模型中使用比率可能被认为是危险的,还有其他主要原因吗?

谢谢!

参考:

2个回答

比率的“危险”部分是倒数的分母

如果您在回归模型中有一个涉及两个解释变量的比率项,则可以将其写为交互项

x1,ix2,i=x1,i×1x2,i.

现在,涉及解释变量的交互项本身并没有什么问题或危险x1,i,事实上,我们在许多回归模型中都有这样的交互项。但是,可以说有一个模型项会反转解释变量是非常“危险的”x2,i--- 如果这个值对于某些数据点来说很小,那么这个解释性术语将在这些数据点“爆炸”,这通常会导致它们具有较大的正值或负值,从而在回归中产生高杠杆点(即,它们会影响OLS 非常适合)。

小心用过宽的笔刷描绘这种情况,因为这种术语并不总是危险的。事实上,如果解释变量x2,i已经是“爆炸性的”(例如,因为它已经是均值接近于零的稳定随机变量的倒数),那么反演实际上可能使其更稳定而不是更具爆炸性。作为一般规则,如果我们反转具有相对较低峰度且均值接近零的随机变量,我们将倾向于得到具有高峰度(即极值概率高)的随机变量,反之亦然

在这里,我们集中讨论了涉及倒置解释变量的术语。当然,也有可能与x1,i可能会加剧该术语的爆炸性,特别是如果x1,i倾向于使用较小的值x2,i. 但正如您所见,“危险”部分实际上是倒置比率项是否“危险”很大程度上取决于倒置项是否1/x2,i本身就是“危险的”。如果x2,i有一些小的值,那么这个术语将非常具有爆炸性并产生高杠杆数据点。

其实,原因很简单。假设您从引导程序中多次计算 CV。简历是SDMean. 现在假设平均值不接近于零,但可能是百万分之一。然后发生的情况是,我们可能会得到一个 CV,它可能是其他 CV 值的中位数的 -1000 倍。因此,随机变量比率的问题在于,我们拥有的数据越多,平均值可能越狂野,因为分母中的除以几乎为零的问题。

编辑:对于我在这里粗略总结的更准确的示例,请参阅:Brody JP、Williams BA、Wold BJ、Quake SR (2002) DNA 微阵列数据分析中的意义和统计错误。Proc Natl Acad Sci 99(20):12975–12978