机器算法验证 - 为什么不能对比例数据进行 Pearson 相关？ - 吾爱随笔录

为什么不能对比例数据进行 Pearson 相关？

机器算法验证相关性部分组成数据

2022-03-16 12:55:30

我正在研究的一个在线模块指出，永远不应该将皮尔逊相关性与比例数据一起使用。为什么不？

或者，如果有时可以或总是可以，为什么？

4个回答

您评论的视频链接将上下文设置为组合的上下文，也可以称为混合。在这些情况下，每种成分的比例总和为 1。例如，空气是 78% 的氮气、21% 的氧气和 1% 的其他（总计为 100%）。鉴于一种成分的数量完全由其他成分决定，任何两种成分都将具有完美的多线性关系。对于空气示例，我们有：

$x_{1} + x_{2} + x_{3} = 1$

那么：

$x_{1} = 1 - x_{2} - x_{3}$

$x_{2} = 1 - x_{1} - x_{3}$

$x_{3} = 1 - x_{1} - x_{2}$

因此，如果您知道任何两个组件，则立即知道第三个组件。

一般来说，对混合物的约束是

$\sum_{i=1}^{q} x_{i} = 1$

此约束使因子的水平不独立。 $x_{i}$

您可以计算两个组件之间的相关性，但不能提供信息，因为它们始终是相关的。您可以在分析按比例成分测量的数据中阅读有关成分分析的更多信息。

当比例数据来自不同域时，您可以使用相关性。假设您的响应是 LCD 屏幕上坏点的一小部分。您可以尝试将其与屏幕化学处理步骤中使用的氦气比例相关联。

这是针对在每个观察中多个变量总和为 1 的情况。我的回答将是直觉层面的；这是故意的（而且，我不是组成数据的专家）。

让我们有iid（因此零相关）正值变量，然后我们将它们相加并重新计算为该总和的比例。然后，

在两个变量V1 V2的情况下，如果说 V1 可以自由变化，则 V2 没有自由空间（因为 V1+V2=常数）并且完全固定；V1越大V2越小，V1越小V2越大。它们的相关性，并且始终如此。 $-1$
在 3 个变量V1 V2 V3的情况下，如果说 V1 可以自由变化，则 V2+V3 是固定的；也就是说，在 (V2+V3) 内部，两个变量中的每一个仍然是部分自由的：它们平均每个都是固定的倍，总共是完全固定的。因此，如果三个变量中的任何一个被视为自由变量（就像我们采用 V1 一样），则其余两个变量中的任何一个都有望固定。因此它们之间的相关性为。这是预期的相关性；它可能因样品而异。 $1/2$ $1/2$ $-0.5$
在 4 个变量V1 V2 V3 V4的情况下，我们有同样的推理，如果我们将四个变量中的任何一个作为自由，那么剩余的任何一个都预计是固定的；因此，这四个中的任何一对之间的预期相关性 - 一个自由，另一个为固定 - 是。 $1/3$ $1/3$ $-0.333$
随着（初始 iid）变量数量的增加，预期的成对相关性从负向增长，并且其在样本之间的变化变得更大。 $0$

这是一个深刻的问题，需要说明一些微妙之处。我会尽力而为，但即使我已经发表了关于这个主题（比例：相对数据相关性的有效替代方案），我总是准备好对仅包含相对信息的数据分析的新见解感到惊讶。

正如该线程的贡献者所指出的那样，相关性是臭名昭著的（在某些圈子里），因为当应用于一组成分被限制为一个常数时出现的成分数据时，相关性毫无意义（正如我们在比例、百分比、百万分之几等）。

卡尔·皮尔森（Karl Pearson）为此创造了虚假相关一词。（注意：Tyler Vigen 广受欢迎的虚假相关网站与其说是虚假相关，不如说是“相关意味着因果关系”的谬误。）

Aitchison (2003) A Concise Guide to Compositional Data Analysis的第 1.7 节提供了一个经典说明，说明为什么相关性是组合数据关联的不恰当度量（为方便起见，在本补充信息中引用。

组合数据不仅出现在一组非负分量总和为常数时；只要数据只携带相对信息，就称其为组合数据。

我认为仅携带相对信息的数据相关性的主要问题在于结果的解释。这是一个我们可以用一个变量来说明的问题；假设世界各国的“每 1 美元 GDP 生产的甜甜圈”。如果一个国家的价值高于另一个国家，那是因为

他们的甜甜圈产量更高？
他们的GDP更低？

……谁能说？

当然，正如人们在这个线程上所说的那样，可以将这些变量的相关性计算为描述性变量。但这种相关性意味着什么？

我有同样的问题。我发现biorxiv 上的这个参考很有用：

Lovell D., V. Pawlowsky-Glahn, J. Egozcue, S. Marguerat, J. Bähler (2014)，
“比例性：相对数据相关性的有效替代方案”

在本文的支持信息中（Lovell, David, et al.;doi: dx.doi.org/10.1101/008417），作者提到相对丰度之间的相关性在某些情况下不能提供任何信息。他们给出了两个 mRNA 表达的相对丰度的例子。在图 S2 中，两种不同 mRNA 的相对丰度完全负相关，尽管这两种 mRNA 在绝对值上的相关性没有负相关（绿点和紫点）。

也许它可以帮助你。

其它你可能感兴趣的问题