机器算法验证 - 这是一种怎样的分布？冠状病毒( X, Y) = 0Cov(X,Y)=0但是修正( X, Y) = 1Corr(X,Y)=1 - 吾爱随笔录

这是一种怎样的分布？冠状病毒( X, Y) = 0Cov(X,Y)=0但是修正( X, Y) = 1Corr(X,Y)=1

机器算法验证分布相关性协方差渐近的双变量

2022-03-13 09:04:07

我面临两个变量之间协方差为零的极限分布，但它们的相关性为。有这样的分布吗？怎么解释？ $1$

你是对的，我可能需要提供更多细节。好的，X 和 Y 是具有不同方差和均值（不含 n）但 corr=1-(1/n) 的二元正态分布，现在研究 Yn|Xn=x 的极限分布。

4个回答

由于协方差取决于 $X$ 和 $Y$ 并且相关性没有（重新调整为 $[-1, -1]$ ）有可能的。例如，如果方差向零减小：

如果 $X=Y$ 和 $\sigma_x^2$ 是方差 $X$ ，然后 $\lim_{\sigma_x^2 \to 0} \operatorname{cov}(X, Y) = 0$ 和。 $\lim_{\sigma_x^2 \to 0} \operatorname{cor}(X, Y) = 1$

注 1：当时，相关性是严格未定义的，因为它的分母将等于 0。 $\sigma_x^2 = 0$

据我所知（可能在某些特殊情况之外，但您没有提及任何情况），这是不可能的。

相关性是协方差除以两个标准差的乘积，因此如果协方差为零，则相关性要么为零（当两个标准差均非零时）或未定义（当至少一个标准差为 0 时）。当协方差为 0 时，它不应该为 1。

我希望您在分析中犯了一些错误，或者您的描述不够清楚，无法正确识别情况。

在 OP 澄清之后，似乎 a）我们假设这两个变量共同遵循二元正态分布，b）我们的兴趣是条件分布，然后

Y_{n} ∣ X_{n} = x \sim N (μ_{y} + \frac{σ_{y}}{σ_{x}} ρ_{n} (x - μ_{x}), (1 - ρ_{n}^{2}) σ_{y}^{2})

$Y_n\mid X_n=x \ \sim\ \mathcal{N}\left(\mu_y+\frac{\sigma_y}{\sigma_x}\rho_n( x - \mu_x),\, (1-\rho_n^2)\sigma_y^2\right)$

然后我们看到作为，我们有，并且条件分布的方差变为零。直观地说，如果相关性趋于一致，“知道 ”也足以“知道 ”。 $n \to \infty$ $\rho_n \to 1$ $x$ $y$

但是在上面我们没有得到是零。即使在极限协方差将保持等于。 $\text{Cov}(Y_n, X_n)$ $\text{Cov}(Y_n, X_n) \to \sigma_y \sigma_x$

请注意，条件协方差（以及条件相关性）始终为零，因为，

Cov (Y_{n}, X_{n} ∣ X_{n} = x) = E (Y_{n} X_{n} ∣ X_{n} = x) - E (Y ∣ X_{n} = x) E (X ∣ X_{n} = x)

$\text{Cov}(Y_n, X_n \mid X_n =x) = E(Y_nX_n\mid X_n =x) - E(Y\mid X_n =x) E(X\mid X_n =x)$

= x E (Y_{n} ∣ X_{n} = x) - x E (Y ∣ X_{n} = x) = 0

$=xE(Y_n\mid X_n =x) - xE(Y\mid X_n =x) =0$

发生这种情况是因为通过检查我们已经将其中一个随机变量变成了一个常数，并且常数不会与任何东西共同变化。 $X_n = x$

您可能会遇到困难，因为您将数据可视化为高斯。

有可能所有数据都代表同一个点（尽管它是多余的），并且您有两个具有不同名称的变量（彼此的别名）组成数据。这将导致零协方差，相关性为 1，因为从根本上说，协方差表示数据在特征空间中的分布程度，而相关性表示一个变量对另一个变量的依赖程度，或者它们对彼此的影响程度。如果数据根本没有展开，那么协方差必须为零。

注意然而，你可以用这样一个数据集做的最好的事情就是简单地将所有点预测为具有相同的输出，这很可能会产生高偏差

其它你可能感兴趣的问题

上一篇余弦相似度是分类还是聚类技术？下一篇均值对多峰概率分布的描述有多好？