了解明显相关但不可逆数据的相关性

机器算法验证 相关性 数据集 术语
2022-04-14 20:48:26

我的问题是可逆性如何影响相关性。我实际上是一个统计菜鸟,所以请原谅我缺乏适当的术语。我将用下面的例子来说明这个问题。

我创建了一个范围从 0 到 30 的随机数列表,以及第二个列表,指示数字的第一顺序。

从 0 到 30 的 10 个数字的随机列表

显然,两列之间存在很强的相关性,但是从 num 到 dec 是 100% 确定的,而从 dec 到 num 是一个猜测(猜测正确数字的几率为 10%)。这种现象在统计学上怎么称呼?

相关图如下所示。它沿其对角线对称,但是在一半(corr = 1)中具有“从”num 到 dec 的相关性,而在另一半(corr = 0.1)中具有“从”dec 到 num 的相关性是否有意义。(可能我所指的关系实际上并不是相关性,但对数据科学很有用)

num 和 dec 列之间的相关性

3个回答

相关性没有“从”和“到”。它是不变术语“从”和“到”在回归的上下文中是有意义的,在这里我们谈到“独立”和“因”变量或“预测”和“预测”。Pearson 相关与线性回归密切相关。再次在线性回归中,值的一阶不起作用,无法在其中表达。Cor(A,B)=Cor(B,A)

因此,如果您构建了一种可以表达“一阶价值”的回归形式,那么当作为的预测变量时,这种回归形式的表现会更好,反之亦然。numdec

这只是一个简单的情况,其中dec 是 --- 的函数 num即 的值dec完全由 的值决定num这就是它的全部名称——一个函数。随机变量的函数通常与初始随机变量相关,因此这不是罕见的情况。相关性表明这两个变量(统计上)线性相关,它们确实如此。显然,在这种情况下,相关性并不是关系的特别好的表示,但这并不奇怪,因为函数关系是高度非线性的。

正如伯恩哈德所提到的,相关性没有“从 - 到”的概念。它描述了变量之间的关系。

另一个有用的想法是,如果我们改变(或过滤)一个变量,另一个变量将如何改变。

想想人的身高和体重之间的关系,如果我们关注高个子人口,很可能我们的体重数字会更大。这称为“正”相关。

现在考虑另一个有趣的情况,如果一个变量的方差为零,即所有数据如何具有相同的值,会发生什么?

答案可以在这篇密切相关的帖子中找到

你将如何向只了解均值的人解释协方差?