机器算法验证 - 如果两个特征具有已知的相关性，您能否预测它们为随机对“对齐”的概率？ - 吾爱随笔录

如果两个特征具有已知的相关性，您能否预测它们为随机对“对齐”的概率？

机器算法验证相关性 r平方

2022-03-30 10:37:56

假设你有两个在给定人群中相关的特征，比如一个人的 BMI 和他们的血压。假设我想估计从这个人群中随机选择的一对人中，具有较高 BMI 的人也有较高血压的概率。如果我知道皮尔逊相关系数r（或等效的 r^2，由 BMI 解释的血压变化比例），这可以用来获得该概率吗？如果不是，我可以使用其他一些相关性测量来做到这一点，或者通过对它们之间的功能关系做出一些简化假设（例如，假设每个人的血压是 BMI 与其他几个自变量的线性函数）和/或每个人的个体分布（例如，假设 BMI 和血压均呈正态分布）？

3个回答

如果两个特征具有已知的相关性，你能预测它们为随机对“对齐”的概率吗？

这取决于您查看的人口相关性。

对于您提到的皮尔逊相关性（ $\rho$ )，答案是“不”，至少在没有额外假设的情况下是这样。（RobertF 的回答是正确的）

相反，如果您知道人口Kendall相关性（Kendall's tau，这里表示 $\tau_K$ ) 在连续双变量分布中，那么答案实际上是肯定的。

总体 Kendall 相关性是一致对的概率与不一致对的概率之间的差异：

τ_{K} = p_{C} - p_{D}

$\tau_K = p_C-p_D$

（样本 Kendall 相关性同样是一致和不一致对的样本比例差异）。

由于在连续双变量群体中 $p_C+p_D=1$ ，如果你知道的话 $\tau_K$ 你可以计算 $p_C$ ：

$\tau_K = p_C-p_D$ $= p_C-(1-p_C)$ $= 2p_C-1$

因此 $p_C = \frac12(\tau_K+1)$ ，一个不错的简单结果。

尽管 $\tau_K$ 确定您要求的概率（至少在连续情况下），之间的关系 $\rho$ 和 $\tau_K$ 取决于变量之间的双变量关系的结构（即copula）。

如果您假设双变量正态性，那么您可以计算出两者之间的（非线性）联系 $\tau_K$ 和 $\rho$ . 事实上，这是一个众所周知的结果。我们有：

τ_{K} = \frac{2}{π} \arcsin (ρ)

$\tau_K = \frac{2}{\pi}\arcsin(\rho)$

- 参见 Embrechts 等人的第 5.3.2 节。(2005) [1]，这个结果也可以在不同的地方找到——例如在 Meyer (2009) [2]。所以在那种情况下

p_{C} = \frac{\arcsin (ρ)}{π} + \frac{1}{2} .

$p_C = \frac{\arcsin(\rho)}{\pi}+\frac12\,.$

（然而，对于 BMI 和血压来说，双变量正态性假设似乎是可疑的）

之间的这种关系 $\tau_K$ 和 $\rho$ 实际上更普遍地适用于椭圆分布。参见例如 Lindskog、McNeil 和 Schmock (2003)[3]。然而，同样，这种对 BMI 和血压的假设可能是可疑的——例如，实践中的这两种测量值往往是右偏的。

[1] Embrechts, P., Frey, R., McNeil, AJ (2005)，
定量风险管理：概念、技术、工具，
普林斯顿金融系列，普林斯顿大学出版社

[2] Meyer, C. (2009)，
二元正态 Copula，
arXiv:0912.2816v1 [math.PR] pdf （12 月 15 日）

[3] Lindskog, F., McNeil, AJ, Schmock, U., (2003)，
“Kendall's tau for elliptical distributions”
，见：信用风险；测量、评估和管理，编辑。G. Bol 等人，
对经济学的贡献，Physica-Verlag Heidelberg，pp.149-156。
（或见http://www.macs.hw.ac.uk/~mcneil/ftp/KendallsTau.pdf）

不——知道两个特征之间的相关性（甚至是线性回归公式）不足以预测较高的 BMI 将具有较高的血压的概率。

有关具有相同相关性和拟合线性回归线的四种不同分布的视觉示例，请参阅Anscombe 的四重奏，以了解基于相关性进行概率预测可能会导致您误入歧途的地方。

如果您做出简化假设：即 BMI 与血压和正态分布之间的线性关系，那么是的，您可以使用最小二乘方程构造新测量值的预测区间。

但是，在处理真实数据时，我建议避免对数据分布进行假设。更好的选择是使用自举来估计累积分布函数。

我建议增加您正在测量的变量。年龄、性别、位置等在您的公式中加权它们以降低误报的可能性。最大化您的 ROC 曲线。看到一个模型在不同十年的给定数据集下保持相同的相关性会很有趣。

其它你可能感兴趣的问题

上一篇最适合高斯过程似然函数的优化器下一篇对数变换是否足以驯服每个分布？