机器算法验证 - “关联度量”的正式定义 - 吾爱随笔录

“关联度量”的正式定义

机器算法验证数理统计独立定义关联度量

2022-04-11 09:32:02

我一直在尝试为“关联度量”提出一个正式的定义。一个直观的定义可能类似于“一个函数，它告诉你一组随机变量之间的依赖关系的存在或强度”。

我用这种直观的关联概念构建了以下定义。请注意，我使用了暗示，而不是双条件。这是为了允许一个函数告诉我们特定类型的关联，而不是一般的依赖。

给定具有实值随机变量的合适概率空间，阶数 n 关联的度量是函数使得。 $(\Omega, \mathcal{F}, P)$ $\{X_j{(\omega}) | \omega \in \Omega \}_{j=1}^{n}$ $f:\mathbb{R}^n \mapsto \mathbb{R}$ $\perp\!\!\!\!\perp \left( X_1, \cdots, X_n \right) \implies f \left( X_1, \cdots, X_n \right) = 0$

但是，它有点短。这个定义并不真正涉及量化关联强度的任何概念。我一直在思考这样一个想法，即如果有足够的平滑度，也许可以用导数的方式进行一些表达。在下面的评论中，@whuber很好地总结了我对这个定义的不满：

将您的定义描述为关联指标会更准确。作为一个“量度”，它应该随着“关联”的某种性质而单调变化。这个问题围绕着什么可能构成一种属性，人们将其描述为量化“关联”的某些方面。主要困难在于“变量之间的依赖关系”是一个丰富而复杂的东西，任何单一的标量值函数都不能充分表征。AFAIK，这些事情没有公理化。

如何修改这个定义以包含量化关联强度的功能？

2个回答

关于该主题的书籍包括Samuel Kotz 和 Dominique Drouet的Correlation and Dependence以及 Harry Joe 的Multivariate Models 和 Multivariate Dependence Concepts。第二个更实用，第一个更理论。

还有一篇 A Rényi 的论文：在 Acta Mathematica Academiae Scientiarum Hungariae 10, 441–451 (1959)中的依赖测量。https://doi.org/10.1007/BF02024507，提出了一些标准，衡量关联应该满足。让我们列出它们： $A(x,y)$

I 标准化A 应该在中II 独立性当独立性成立III 功能依赖性如果是的函数，反之亦然IV 当依赖性增加时，属性必须增加V相对于不变性分离每个变量的线性（或仿射）变换。一个更强的要求是是边际自由的，也就是说，它仅取决于通过其 copula VI 对称的二元分布如果变量是可交换的，则应该是对称的 $[0,1]$
$A=0$
$A=1$ $x$ $y$
$A$
$A$
$A$
VII 与序数变量测度的关系如果，那么这两种情况之间应该有密切的联系 $A$

由于其中一些标准是非正式的，它们不能真正被称为公理。让我们将 Pearson 相关性视为关联度量，看看它的表现如何：

Pearson 相关性似乎只符合VI, VII。具体来说，它不是边际免费的。让我们更详细地看一下，因为它具有有趣的后果，应该更加了解，并且可能在解释中加以考虑。如果我们通过递增的变换分别变换和，这只会改变边缘分布，而 copula 将保持不变。但如果这些变换是非线性的，那么它们会破坏散点图中的直线，因此 Pearson 相关性会发生变化。而且，当边缘分布具有不同的形状时，最大相关值 1 是不可达的！ $x$ $y$

让我们使用一些使用 R 分发的简单示例数据：

data(mammals, package="MASS")
with(mammals, cor(body, brain))
with(mammals, cor(log(body), log(brain)))
[1] 0.9341638
[1] 0.9595748

现在，要计算与数据的实际边际分布可能的最大相关性，我们可以在计算相关性之前按升序对值进行排序。这将保留边缘，但显然会破坏 copula：

maxcor <- function(x, y, ...) {
    xx <- sort(x) ; yy <- sort(y)
    cor(xx, yy, ...)
}

 with(mammals, maxcor(body, brain))
with(mammals, maxcor(log(body), log(brain)))
[1] 0.9435413
> [1] 0.9921567

因此，与实际值相比，可能的最大相关性实际上只有。由于对数变换保留了 copula，但没有保留 Pearson 相关性，我们看到它不是边际自由的。 $0.944$ $0.934$

以下是一些可能有用的需求。我不确定这些需求是否会起作用，但这将是一个合理的调查起点。本质上，您需要某种属性来确保“度量”是有序的，指定为度量必须满足的不等式。在这里，我使用了添加独立随机向量应该“减损”关联的想法。

第一个属性是您在问题中给出的属性，但我还添加了一些其他属性，我认为这些属性在衡量关联时会很有用。平滑度属性反映了当您连续更改随机向量时您希望您的度量连续更改的想法。derogation desiderata 反映了在现有随机向量中添加独立随机向量不应该增加关联，并且当添加的向量是非退化的时会减少关联的想法。如果您希望您的关联度量具有最大值，我还建议最后一个假设。

无关联：如果的元素相互独立，则我们有。 $\mathbf{X} = (X_1,...,X_n)$ $f(\mathbf{X}) = 0$

平滑度：给定一个随机向量独立于，函数是连续的。 $\mathbf{Y} = (Y_1,...,Y_n)$ $\mathbf{X} = (X_1,...,X_n)$ $f(\mathbf{X} + \alpha \mathbf{Y})$ $\alpha$

减损（弱）：给定一个随机向量独立于我们有。 $\mathbf{Y} = (Y_1,...,Y_n)$ $\mathbf{X} = (X_1,...,X_n)$ $f(\mathbf{X}+\mathbf{Y}) \leqslant f(\mathbf{X})$

减损（强）：适用弱减损，此外，如果是非退化的（即它没有点质量分布），我们有。 $\mathbf{Y} = (Y_1,...,Y_n)$ $f(\mathbf{X}+\mathbf{Y}) < f(\mathbf{X})$

最大关联（可选）：如果中的所有值都具有点质量分布，那么我们有 $\mathbf{X}$ $X_i = x_i$ $f(\mathbf{X}) = 1.$

您应该记住的另一件事是，您可能需要针对随机向量的分布而不是随机向量本身定义“关联度量”（尽管我们定义的概率/统计中还有其他概念对隐式使用其分布的随机向量的操作）。

其它你可能感兴趣的问题

上一篇为什么 R 中的 AIC 公式似乎比预期使用了一个额外的参数？下一篇Weibull 分布背后的直觉？