变量缺乏相关性,但有模式

机器算法验证 r 相关性 对数正态分布 探索性数据分析
2022-03-04 13:27:26

下面是两个变量 X 和 Y 的图表,每个变量代表计数数据。N=348。注意轴的比例:
http://i.imgur.com/tNGyTX5.jpg

Y 非常接近对数正态,但 X 没有合适的拟合(包括泊松、负二项式、对数正态和对数变换的 gamma)。
X 和 Y 之间的 Spearman 系数接近 0,拒绝无相关性的 p 值非常高。

从图中,似乎没有 x 和 y 的极值组合。

当我记录转换 X 和 Y 时,以下绘图结果:
在此处输入图像描述
显然,任何图案的外观都消失了。

我的问题是:

  • 为什么在线性尺度上缺乏“极端”值的组合,但在对数尺度上却没有?
  • 在线性尺度上缺乏极值组合是否有任何意义,是否有进一步调查?

本研究的目的是探索性的。

1个回答

考虑翻转你的问题。

从不相关的数据开始——我随机生成了这些数据,所以这些变量是独立的;我的 y 是正常的,我的 x 是 log(1+X1) 其中 X1 是几个几何分布的混合,这些几何分布被选择为您的绘图提供大致相似的外观:

在此处输入图像描述

y 变量是对称的,x 变量是轻微偏斜的,但关键的是,这些变量都不是很长的。

然后,您会得到许多 X 和 Y 值相对较大的情况,因为其中任何一个高于其中间范围(图的中心)的概率很高,所以两者的概率也相当高(例如,在某个地方0.15-0.25),在这种情况下,y 变量的乘积为 0.5,x 变量的乘积略低于 0.5。

如果你对两个这样的变量求幂会发生什么,它们只是独立的短尾变量:

在此处输入图像描述

你得到的东西与你的第一个情节大体相似。它使这两个变量 - 尽管仍然独立 - 强烈右偏(长尾向右),......这就是外观的来源。

为什么它看起来像“L”形?仅仅是因为 X 和 Y 变量的高值都相对罕见,而两者的组合(由于它们的独立性)更罕见。因为对于每个变量,几乎所有其他变量的值都远低于其中间范围,因此极值 X 或 Y 可能与图中间下方/左侧的其他变量的值相关联。

例如,如果每个分布的 5% 高于中间范围,则大约 0.25% 的值(即平均不完全为 1)将位于右上象限。

对于任何两个足够右偏的独立变量,您会看到几乎相同的现象,并且在许多接近独立的变量中。这是两个独立的随机变量(1.5 df 和不同尺度的 t 分布随机变量的绝对值):

在此处输入图像描述