各种数据集的标准相关系数

数据挖掘 Python 预处理 相关性
2022-02-12 23:18:07

我理解了第一行的相关系数。但是图1中第二行和第三行的相关系数与第一行不同为什么会这样?。甚至第二行和第三行的形状也不同?有人可以帮我了解下图吗

在此处输入图像描述

第二个问题与属性之间的相关性有关。提出这个问题的目的是为了从 StackOverflow 数据科学用户那里获得更多的理解。我从下图中学到的一件事是

  • 如果您针对同一属性绘制属性,您将得到线条,这是没有用的。例如,如果您注意到 y 轴中的 median_house_value 与 x 轴中的 median_house_value 相比,它们基本上是直方图。

有什么有价值的反馈可以评论下面的图片吗?如果是这样,请告诉我。

在此处输入图像描述

1个回答

第一部分:

您必须问自己的问题是“鉴于我知道 x 值,我对 y 值有什么了解”。还有一个小提示:您可能只考虑线性关系。

考虑第一行。在第一幅图中,如果您知道 x 值,则 y 值为y = x,即您完全知道 y 值。在下面的两个图像中,如果 x 值很高,则 y 值也很高,但也有随机分量。因此,相关系数是正的(即知道 x 有助于估计 y),但不是 1(即没有精确的方程y = a*x。在中间图像中,x 坐标和 y 坐标之间没有关系——它们是纯粹随机的,所以没有相关性。在右边的三张图片中,它与左边的三张图片中的故事相同,但是符号被翻转了。

现在考虑第二行:在前三种情况下,如果您知道 x 值,您总是可以推断出 y 值,例如y = xy = 0.5 xy = 0.1 xy = 1 xy中没有随机分量,所以如果你知道x,你也知道y的确切值,因此相关系数为1。公式是或无关紧要y = 0.1 x(即线的斜率不重要!)对于相关系数而言,重要的是存在这样一个导致精确匹配的线性系数。

在第三行,知道 x确实提供了一些关于 y 的知识。例如在中间的情节中,你有 的关系y = x^2 + random,所以 x 和 y 之间确实存在某种关系,但它是非线性的因此相关系数为零。您无法说“高 x 值也会导致高 y 值”或“高 x 值导致低 y 值”。


第二部分:

我假设这个图是用 Seaborn 的pairplot()函数生成的,尽管当然存在不​​同的函数来创建这种图。重要的是要注意,对角线上的图与其他元素根本不同。

非对角线图是二维散点图,即为每个数据样本绘制一个点。对角线图是每个特征的直方图,而不是散点图。这是因为两次相同变量的散点图总是会给你一条直线y = x直方图实际上非常有用,因为您可以感受数据并猜测底层分布。

例如,您的total_rooms变量严重偏斜,大多数房屋的房间很少,但有一些异常值具有大量房间。因此,我不会相信很多的平均值total_rooms,而是使用中位数——当然,这在很大程度上取决于你正在做什么样的分析。