如何统计描述双变量数据中的链状模式?

机器算法验证 相关性
2022-03-29 08:57:56

我正在阅读一篇探讨两个变量 X 和 Y 之间相关性的文章。通常,如果散点图显示类似这样的内容,我们可以声称 X 和 Y 之间存在很强的相关性。

Y
|
|              o
|           o o
|          o
|        o o    
|       o
|    o
|  o
+--------------------->X

下面的案例呢?

Y
|    o          o
|    o          o
|     o        oo
|     o         o
|    oo         o
|    o          o 
|    o          o
| o oo o oo oo o o o oo
+--------------------->X
    x1          x2

基本上,散点图显示了沿 X 轴的一些数据点周围的强聚类和尖峰,例如 x1 和 x2。

这意味着什么样的统计特性?

2个回答

您描述的模式是完全不相关的,但可以通过一些信息论度量(例如互信息)来获取。有许多实现它的包,例如entropyinfotheo

还有一个最近的依赖度量,称为MIC,在 java 中实现,带有 R 包装器,您可以在www.exploredata.net获得。它有很多很好的属性,例如在 [0, 1] 区间上,并且不支持任何特定类型的关系(例如线性)。但这并非完全没有争议,因此我建议阅读Reshef等人的原始文章(Science 2012)。

X 和 Y 之间的相关性衡量它们之间是否存在线性关系。如果 y=aX+B - 一条没有散点且没有错误的纯线 - 相关性将为 1(如果 a>0)和 -1(如果 a < 0)。它不是因果关系或相关性的一般度量。

您的第二个散点图根本没有显示线性。在这种情况下,相关性不是适当的衡量标准。