机器算法验证 - 相关性的物理意义？ - 吾爱随笔录

相关性的物理意义？

机器算法验证相关性

2022-03-16 13:59:55

假设 X 描述了一个随机变量，表示某人今天扫地所需的时间，Y 是他明天所用的时间，Z 是他在 10 月最后一天所用的时间。

如果假设 X、Y 和 Z 是独立的，则意味着该人没有“学习”如何通过第一天的经验更快地扫一扫，并且 X 的结果与 Y 和 Z 的结果无关。
当 X、Y 和 Z 具有一定量的相关系数（例如 0.5）时，这在物理上意味着什么。

我知道 $\rho_{XY} = \dfrac{cov(X,Y)}{\sigma_X \sigma_Y} = \dfrac{E[(X-\mu_X)(Y-\mu_Y)]}{\sigma_X \sigma_Y}$

2个回答

假设 X、Y 和 Z 各有 100 个值，用于 100 个不同的扫地机。

如果 X、Y 和 Z 是独立的，则意味着一个人在较晚日期扫地的速度不取决于他/她在较早日期的扫地速度。但是，即使独立，该比率也有可能系统地增加。如果后面大家扫得更快，如果增加不依赖于初始速度，就会出现这种情况。
我见过的可视化不同幅度相关性的最佳方法是绘制它们。

x <- rnorm(100)
y <- x + rnorm(100, 0, .5)
cor(x,y)
plot(x,y)  
y <- x + rnorm(100, 0, 1)
cor(x,y)
plot(x,y)
y <- x + rnorm(100, 0, 2)
cor(x,y)
plot(x,y)

显示了大约 0.9、0.7 和 0.5 的相关性。

在非常基本的物理意义上，正相关意味着一个变量的较高值与另一个变量的较高值相关联。

负相关意味着一个变量的较大值往往与另一个变量的较小值同时出现。

需要注意的是，相关性并不意味着因果关系。即“X 是 Y 的原因”或“Y 是 X 的原因”，因为它们高度相关，是不正确的。正相关仅意味着如果 X 增加，那么 Y 也会增加。该值表示这种线性关系的程度。

对于您的示例，X 和 Y 之间的正相关意味着如果某人今天扫地所需的时间很长，那么他明天所需的时间也会很长。

那有用吗？

其它你可能感兴趣的问题

上一篇协同过滤和隐式评级；正常化？下一篇用于数据挖掘的水印数据